nocproject.org
03:55
dvolodin, нок еще на одном графике эверест нарисовал, но в этот раз без провалов, просто один пик на 40Pbps и дальше опять нормально пошло
03:55
тут даже по-другому
03:56
этот пик шириной в целый час
03:56
ты на графане смотришь ?
03:57
а вот в данном случае железка ребуталась
03:57
пик начинается когда железка верулась из ребута
03:57
выключи режим line сключи режим bar
03:57
лайн сильно врет
03:58
freeseacher, бар тоже пик выдает
03:59
04:00
промежуточных точек нет, только первая точка и через час самая верхняя
04:00
там же конфиг рефрешится раз в час, может кто-то там порылся
04:10
zi_home, ты на рокс не переключался ?
04:15
нет
04:17
я пока не знаю что это и что вообще надо делать
04:17
как я понимаю, миграции данных сейчас нет, все графики опять с нуля пойдут
04:17
а у меня вот с пиками проблема
04:17
04:17
это последний в списке
04:19
да это я видел
04:20
я не понимаю, надо ли устанавливать какой либо сервер или оно как виспер или sqlite
04:20
как Sqlite
04:26
и не переключайся пока :)
04:29
а, нее
04:29
это остатки старых экспериментов
04:29
работает вроде
04:34
zi_home, мы за сегодня вчера отловили пару багов в пробе
04:35
посмотрим
04:37
даже с роксом мне понадобится 10ТБ места в хранилище чтобы сохранить все данные что я хочу, 100000 метрик каждые 3 минуты в течение 5 лет, правда у меня нет 100к метрик, а только 7-8к и собираются они реже трех минут, но ориентир такой
05:57
e_zombie, вышел на работу, начал новости читать? это уже два дня назад
05:57
ага.
05:57
дома работаю. на работе читаю новости :)
05:57
добавил в нок 2900 хостов. теперь думаю что с ними делать :)
06:01
неее. теперь думаю что с ними делать :)
06:12
а кто нить считал IO при таком большом количестве источников данных?
06:56
народ, а ни у кого нет такой проблемы. с аплинка приходит огромный трафик, похоже на ддос, длится не долго, может минуту или около того, деградацию сервиса заметить не успеваю, но на графиках пики очень четкие
06:56
происходит это уже достаточно давно
06:57
но не очень регулярно
06:58
два дня был один большой пик, позавчера ничего не было, вчера 4 небольших пика
06:59
херня какая-то
06:59
вот думаю, это только нас так или у других тоже происходит
07:08
у нас тоже бывают досы
07:08
ловим по nfsen
07:40
freeseacher, я посмотрел на скриншоты nfsen и вспомнил как реквестировал netflow в ноке
07:58
аааааа бля
07:58
(11:55:56) ReeF: Все, пиздец, доработался! Иду в сортир, открываю дверь, тянусь расстегивать ширинку, смотрю - а я ж блять в серверной!!! Правда желание на все это нассать и уйти не пропало
07:59
:)
08:00
Подскажите мне как сделать чтобы cli дождаля всего вывода..
08:00
v = self.cli("show spanning-tree detail")
08:00
cd /opt/noc/ && ./noc cli-commands -d --timeout=30
08:00
v += self.cli("")
08:01
изврат...
08:01
а в скрипте?
08:06
xetle, а что? не дожидается? сколько длится вывод?
08:08
хз сколько ну пару секунд..
08:08
то есть скрипт пару секунд не дожидается?
08:08
тогда дело не в таймауте
08:09
Н вывод какойто неравномерный... и в том месте где притормозит обрывает... потом в следующей команде cli старый вывод...
08:09
zi_rus, а чего тебе не нравитсья в nfsen ?
08:10
freeseacher, а зачем мне он если есть нок ;)
08:10
dvolodin: cli если вывод с неравномерной скоростью идёт оьравается.. что бы получить всё надо:
08:10
поставлю его конечно если руки дойдут, а вноке не реализуется
08:10
v = self.cli("show spanning-tree detail")
08:10
v += self.cli("")
08:10
v += self.cli("")
08:11
xetle: посмотри, он у тебя промпт не распознает по ошибке?
08:12
по возможности используй адаптивную маску
08:13
Да это оно!!
08:13
('^\\S+#', 'PROMPT')
08:14
\r\n###### MST 1 Vlans Mapped: 1\r\n\
08:14
match '^\S+#'
08:27
xetle: всегда проверяй ./noc debug-script
08:30
я им и делал, не заметил что оно по промпту отрубает.
08:31
r"^(?P<hostname>\S+)#" - заработало :)
08:41
И ещё вопрос по STP, роль bound не предусмотрена интерфейсом:
08:42
ch2 enabled 128.1001 20000 Dscr Boun No P2p Bound (RSTP)
08:42
ch3 enabled 128.1002 20000 Fwd Boun No P2p Bound (RSTP)
08:42
Как быть как жить?
08:43
dvolodin Boun - какую роль мапить с igetspanningtree.py
08:44
"unknown" :)
08:49
xetle: а точно это роль?
08:50
08:50
тут это тип
09:15
Name State Prio.Nbr Cost Sts Role PortFast Type
09:15
ch2 enabled 128.1001 20000 Dscr Boun No P2p Bound (RSTP)
09:15
ch3 enabled 128.1002 20000 Fwd Boun No P2p Bound (RSTP)
09:16
Role == Boun
09:17
bound наверное означает граница
09:19
09:19
"Ports at the edge of an MST region connected to either an RSTP or STP bridge or an endpoint are known as boundary ports. "
09:19
Граничный порт.
09:19
Вроде.
09:20
xetle: в твоей выдаче: type: "P2p Bound (RSTP)"
09:26
Hi. I want to resize a /28 network in Address Space Management to a /26. how would I do that?
09:26
the needed addresse after the /28 are unused
09:39
TSergey: да оно так, но чтобы в ноке сей факт задокументировать надо в igetspanningtree.py роль bound добавить..
09:40
так чего это за роль-то? в описании stp нет такой роли у порта
09:40
привязка... как ты раньше говорил.
09:42
если тебе для топологии, то важны только root, alternate и designated (насколько знаю)
09:42
Для топологии ужа навалял, теперь для общего развития..
09:45
и чего, по stp у тебя линкуются?
09:45
got it: delete the existing prefix with keeping the nested objects, create the new prefix.
09:53
hsychla: yes, all nested data will be relinked
10:28
there is not much going on on the default branch. is it a good idea to switch to the develop branch? can I switch back to default if I don't like it or will I get problems with my databases?
10:30
dvolodin, как на счет нетфлоу коллектора в ноке для perf management?
10:31
ну а что ты хотел
10:31
я настырный
10:31
а еще это интересная тема и пока что она не устарела
10:33
dvolodin, видимо сам по себе коллектор и не нужен
10:33
нужен конвертер
10:33
который будет хавать нетфлоу и превращать в метрики трафика
10:34
один же фиг zi_rus не хочет хранение нетфлоу
10:34
и только параметризованные метрики
10:34
may be
10:35
вот например типичные задачи
10:35
посмотреть соотношение ipv4 к ipv6 трафику
10:35
или посмотреть на какой адрес льется 10G ддос
10:37
ты это уже сейчас можешь получать
10:37
ты нетфлоу чем собираешь ?
10:37
ничем
10:37
он сейчас в биллинг льется
10:38
когда от него откажутся я его sampled режим переведу и на нок заверну, для целей статистики
10:38
вопрос лишь в том кто будет с данными работать
10:38
нок или иная система
10:39
в то время как поддержка netflow является относительно распространенной у систем мониторинга, я не вижу причин его игнорировать
10:39
в смысле реализации в ноке
10:43
в большинстве вижу неизвестно
10:44
по большинству их них знаю что не поддрживается
10:44
а я и не говорил что все кроме нока поддерживают
10:45
посмотри фраза построена по-другому :)
10:45
просто получать именно метрики трафика довольно просто сейчас
10:45
отправлять данные на нок можно
10:46
и рисовать их тоже
10:46
я большего и не прошу
10:46
а сами метрики вполне получаются через flow-tools
10:48
flow-capture с ключиком -R
10:49
а в этом ключике нужные тебе парсинги и отправка в нок
10:52
zi_rus: коллектор бинарный должен быть
10:52
для питона слишком тяжелая задача
10:54
ну может как freeseacher говорит, завязаться на уже существующий, может велосипед нет смысла изобретать
10:55
мне больше интересен конечный результат
11:06
так, не отвлекайте
11:06
графики :)
11:06
freeseacher: рокс рулит?
11:07
аащще
11:08
zi_rus, от dvolodin по flow-tools ничо не надо.
11:08
там ты сам тока
11:09
freeseacher, а чего сам, как нок это примет и в виде метрик положит в базу?
11:09
так и примет
11:09
ноку щас пофиг
11:09
все че пришлешь то и положит в базу
11:09
что значит пришлешь
11:10
сейчас он сам все забирает по snmp
11:10
echo "local.random.diceroll 4 `date +%s`" | nc -q0 ${SERVER} ${PORT}
11:10
точнее вот так
11:10
PORT=2003
11:10
SERVER=graphite.your.org
11:10
echo "local.random.diceroll 4 `date +%s`" | nc -q0 ${SERVER} ${PORT}
11:10
от возьмет эти данные и сохранит себе в базу
11:12
проба ходит за данными
11:12
и отправляет их во врайтер
11:12
формат отправки точно такой же как как в оригинальном графите
11:13
а там тупой текстовый протокол
11:13
11:41
ну да
11:42
там можно хоть в файл flow писать, скажем минутными файлами, а затем обрабатывать и слать метрики
11:42
кроме того демоны NOC нынче сами писателю умеют свои метрики кидать
11:51
Если вы позволите, то я возражу против flow-tools
11:51
минусы это отсутствие v9
11:51
у flowd есть, но он старый
11:51
остаётся лишь nfdump
11:52
мне вот что всегда было забавно -- netflow как формат - туп как пробка
11:53
а зачем ему быть сложным?)
11:53
Вот образец, вот данные, сортируй сам
11:55
ну ладно
11:55
dvolodin, ну и чего там у нас с графиками
11:56
zi_rus: боролись с дедлоками
11:57
в пробе
11:57
а спроси у freeseacher
11:57
это вы пробу все еще чините
11:57
zi_rus, у меня с утра было зависание одно которое я не могу воспроизвести. но в целом победили
11:57
проба стабильно опрашивает 17к метрик
11:58
при 17k пробах на один процесс периодически возникали deadlock'и
11:58
zi_rus, я могу только удвоить
11:58
because we can
11:58
:)
11:58
freeseacher, тебе религия не позволила несколько инстансов запустить?
11:59
zi_rus, у меня проц там один
11:59
выгрузку конфига сегодня разогнали в несколько раз
11:59
с какой целью несколько инстансов ?
11:59
а ядер наверняка несколько
11:59
да ладно
11:59
сереьзно?
12:00
ты где этого динозавра откопал?
12:00
пентиум 3?
12:00
эм... виртуалка с оговоренными параметрами производительности
12:00
у меня вообще ни одног офизического сервера в управлении нет
12:01
ну просил бы побольше
12:01
я считаю 4 ядра оптимальный вариант
12:01
дык я то хочу понять сколько я с одного ядра могу поднять метрик
12:01
брал бы 0,5 ядра
12:01
а потом на 2 умножил!
12:02
0.5 - самый правильный размерчик. 0.33 мало.
12:02
надо попросить больше ядер
12:02
давай те пилите графит а я на след неделе свеженких вагин подкину
12:02
а сегодня?!
12:02
пятница же
12:03
сегодня у меня мама приедет. не получится. и модели на след неделю готовы. аж целых две
12:03
мама не любит можелей ?
12:04
у нас тут зима полноценная а у вас ?
12:04
снежокас выпал немножко
12:04
в йошке же около 10см?
12:04
у нас уже с полметра
12:05
как в середине зимы
12:05
Графики по снмп строятся у вас?
12:06
нет
12:06
графики строяться по rocksdb
12:06
данные в который собираются по snmp
12:06
графики строятся по точкам
12:07
насколько белезненно будет перейти на этот графит?
12:08
или надо копию виртуалки сделать, на всякий?)
12:09
боль будет сильная, но потом отпустит
12:09
хм.
12:09
вроде довольно просто
12:10
если текущий pm у тя почему то вдруг работает то данные потеряешь
12:10
у меня ничего не работает
12:10
даже письма не шлёт, всё ок
12:10
у нас снега нет, но холодно
12:13
2014-10-24 16:16:55,307 [noc.pm.pmwriter.writer] 1000 records flushed (118.54ms)
12:16
noc-web можно попросить собирать статистику по хитам и по времени обработки запросов
12:31
Дальнейшие планы такие
12:31
12:32
1. нужно допортировать графитовские функции
12:32
2. Нужно переделать рисовалку графика в графите
12:32
3. нормальные JS графики в морде NOC
12:32
4. dashboard'ы
12:33
5. Обработка threshold'ов и поднятие алармов
12:35
с дашбордами в принципе все понял, только не решил, как лучше
12:35
тайловые как в восьмерке
12:35
или строки как в графане
12:40
Давай лучше discovery objects for sa
12:41
давай лучше ты сам :)
12:44
dvolodin, какой восьмерке?
12:45
ааа
12:45
в графане по-моему норм сделано
12:45
ну там два варианта
12:45
либо дашборд -- набор строк
12:45
лишние степени свободы мешают
12:45
на каждой из которых один или несколько widget'ов
12:45
в кактусе вообще выбора нет
12:46
либо дашборд -- табличка NxM
12:46
и ничего, пользуемся
12:46
и widget -- прямоугольник, занимающий одну или более ячеек
12:46
первый хорош тем, что адаптивен под размер экрана
12:47
во втором можно более сложные раскладки делать
12:47
ну есть еще вариант, который предлагает extjs
12:47
там наоборот
12:47
дашборд -- колонки
12:48
я к графане привык
12:48
нормальная тема
12:48
а лишние степени свободы только отвлекают
12:48
а плевался, как от кактуса
12:48
может графану и оставить?
12:48
;)
12:49
графана ущербная
12:49
просто на безрыбье
12:49
dvolodin, у тебя есть верхний и нижний предел, как ты их графане будешь передавать, если там трешолд можно только с одной стороны нарисовать
12:50
про стекирование я уже говорил
12:50
я свои графики сделаю
12:50
ну вот, графана значит идет лесом
12:51
dvolodin, но возьми лучшее, у графаны шикарное редактирование графика, в кактусе я объебался делать то чно хочу, а в графане в пару кликов нужные данные добавляются
12:53
кактус может начинать беспокоиться
12:53
заббикс - тоже
15:49
Hi, me again.. I upgraded from default branch to develop. After "/etc/init.d/noc-launcher start" I only get "Loading NOC. Please wait ..." in my browser... any hints?
15:52
argh, nevermind. Had to reload invalidating cache...
17:19
17:19
чем больше графиков я достаю, тем больше аномалий встречаю
17:20
сиськи?
17:20
все это сильно похоже на переход через 0?
17:21
может я промахнулся там где в расчетах?
17:21
а может и железка дурит
17:21
dvolodin, давай исходить из того что в какти все нормально?
17:21
я встречал такие немотивированные вылеты на zabbix + srx
17:22
или там просто фильтр на большие значения, например
17:22
что в rrd и делают обычно
17:22
но ты видишь что между двумя большими значениями рисуется провал
17:22
с относительно маленькими значениями
17:23
ты постекировал их?
17:24
а попробуй поотключать графики по очереди
17:24
на них на всех вылеты, или только на одном
17:25
dvolodin, на двух из трех
17:25
и
17:25
стабильно
17:25
третий самый маленький?
17:25
между двумя пиками ровно 1 час
17:26
абсолютно строго и стабильно
17:26
а ширина пика примерно 5 минут
17:26
а не связано ли это с переконфигурацией пробы?
17:27
сколько метрик сейчас?
17:27
17:27
увеличенный график двух пиков
17:27
эти полосы -- косяки рисовалки
17:27
ширина пика 5 минут
17:28
в смысле косяки рисовалки?
17:28
в трейсах ничего нет?
17:28
пятиминутные полосы
17:28
там очень высоко, в районе луны есть точка
17:29
линия вверх и линия вниз будут параллельны почти
17:29
да, это я знаю
17:29
я понимаю что нарисовано
17:29
только на кисках, или еще где такое?
17:29
у меня только циски
17:29
а хотя
17:29
попробуй проверить гипотезу о том, что они бываюи раз в час
17:30
они не бывают раз в час, это не стабильно
17:30
они шириной ровно 1 час
17:30
на дсламе одном который я вывел тоже есть пики, но меньше
17:30
видимо соответственно количеству трафика
17:30
и характер пиков другой
17:31
dvolodin, трейсов нет, грепнул все логи
17:34
Note: If current value is smaller than the previous value, Zabbix discards that difference (stores nothing) and waits for another value. This helps to work correctly with, for instance, a wrapping (overflow) of 32-bit SNMP counters.
17:37
dvolodin, все графики с пиками сняты с одной железки
17:37
но 64битные счетчики там есть
17:37
может быть это сбросы счетчиков такие
17:37
а не переход через ноль
17:38
я помню на SRX у меня были такие же вылеты
17:38
может тебе костыль как у заббикса приделать?
17:38
как есть сейчас - это не нормально
17:39
мы логгировали, что отдает железка, и там действительно была фигня
17:39
скажем, если счетчик чуть отмотается назад -- будет лажа
17:39
ну да, трафик отрицательным быть не может
17:40
но фокус в том, что он не с нуля начинался
17:40
а с чуть более низкого значения
17:40
я думаю такое условие пойдет
17:41
если следующее измерение меньше предыдущего, то надо не только переход через ноль считать
17:41
но и сравнивать полученный результат с последним значением
17:41
давай, делай фикс и я на роксдб перейду, пусть пропадут эти кривые значения
17:42
еще только понять как
17:43
через часок займусь
17:43
кривые значения ты можешь и сейчас в монге срезать
17:43
:)
17:44
не, я просто на рокс не хотел уходить чтобы данные не терять, а тут в данных такая каша, которую надо выкинуть
17:44
вернусь попозже
17:44
данные мы прочистим
17:44
и ничего не потеряешь
18:31
18:31
как-то так, наверное, надо
18:34
сверху то, как есть сейчас
18:34
снизу - новый вариант
18:34
суть такая
18:34
определяю, 32 или 64-битный счетчик
18:35
а дальше считаю два расстояния между точками
18:35
прямое и через ноль
18:36
если прямое меньше, то, скорее всего, мы не через ноль перешли, а откатились немного назад
18:37
if v < self.last_value: это ведь уже сравнение
18:37
да
18:37
но оно бывает в двух случаях
18:37
при переполнении и при уменьшении
18:39
то есть v это то что мы получили
18:39
а last - это что в базе
18:40
брр
18:40
ничего не понял, но поверю на слово :)
18:53
18:53
что-то типа такого
18:53
работатает или нет -- не знаю
18:56
попробуй
18:56
пропадут вылеты, или нет
18:57
накатил
18:57
посмотрим
19:11
рисовать не перестало?
19:16
нет, ричует нормально
19:28
смотри сообщения Possible counter stepback
19:33
пока что только 2014-10-24 23:36:36,756 [noc.pm.probes.generic.network.snmp_interface] [5d364238-c8d6-5652-8520-c659694fdeb1] No v
19:33
alid OIDs to poll
19:35
ну это нормально
19:35
это твое же, которое я на днях фиксил
19:37
да, мне кажется такого на моих железках быть не должно
19:37
это я буду сам разбираться
19:39
root@noc:/var/noc/log # grep stepback *
19:39
root@noc:/var/noc/log #
19:39
пока не было
20:05
судя по частоте пиков, завтра будет ясно, работает оно или нет
Share this page
Share this page: