About Forum Blogs NOC Docs Downloads KB Issues Code CI Registration

nocproject.org

#nocproject.org at irc.freenode.net log.
Back to nocproject.org Back to IRC log index
Date: 25.01.2013
lexus-omsk #
02:25
simba__: я просил потестить на Zyxel get_spanning_tree, выложенный в NOC-909
dvolodin #
04:53
Закоммитил новую реализацию аццкой попингуйки
04:54
теперь активатор пингует железки сам через PingSocket, отслеживает текущее состояние
zi_nnov #
05:14
dvolodin, шедуль можно убивать?
dvolodin #
05:15
сам помрет
05:17
вчера еще раз прошелся по логам discovery
zi_nnov #
05:17
dvolodin, как конфигурить пинговалку?
dvolodin #
05:17
возникла идея, сделать что-то вроде protocol discovery
05:17
zi_nnov: там два параметра в конфиге активатора - ping_instance и ping_interval
05:18
в принципе они сконфигурированы
05:18
по protocol discovery идея такая -- собирать список протоколов, которые реально активированы на железке
zi_nnov #
05:19
dvolodin, в дефолтном конфиге комментариев нет, если не сложно в доку напиши что они значат
dvolodin #
05:19
чтобы потом, скажем, не запускать lldp discovery на железке, которая умеет lldp, но он не включен
05:19
теперь вот думаю - либо отдельный скрипт сделать, либо из get_interfaces повыдирать
05:29
zi_nnov: поправил в доке
05:30
там разумные настройки по умолчанию
zi_nnov #
05:30
ок, а path deprecated?
dvolodin #
05:30
да
05:35
еще, наверное, надо heartbeat'ы из ланчера выпилить
zi_nnov #
05:35
пинги все так же размазаны? и еще я все равно не понял про ping_instance, если не сложно, можешь написать пару примеров, что будет происходить при различных значениях, например 0 и 5, всем будет понятней и приятней
dvolodin #
05:35
zi_nnov: смотри, ты запускаешь на одном хосте 4 автиватора в одном пуле
zi_nnov #
05:35
да
dvolodin #
05:35
у них по умолчанию instance id будут 0, 1, 2, 3
05:36
а адрес один
05:36
чтобы сокеты для коллеторров трапов и сислога не подрались между собой, выбирается только один instance, который будет принимать трапы
05:36
по умолчанию - 0
05:36
то же и для пингов
05:37
чтобы они все вместе не пинговали те же объекты - выбирается один instance который занимается пропинговкой
zi_nnov #
05:37
ааа
05:37
есть смысл разносить функции по разным инстансам?
dvolodin #
05:38
нет
zi_nnov #
05:38
пинг вынести на 2 истанс напрмимер
dvolodin #
05:38
можешь, но вряд ли он настолько сильно грузит
zi_nnov #
05:38
просто может это распараллелит нагрузку
05:39
сейчас все процы много ядерные
dvolodin #
05:41
пинги более-менее равномерно размазаны по времени
05:42
если fm.ping_check пускал их пачками каждые 6 секунд, тут просто равномерно рассыпаются
05:42
и новые пинги посылаются каждую секунду
05:42
3 пакета, таймаут - 5 секунд
05:42
железка считается живой, если дошел хоть один ответ
zi_nnov #
05:43
ок, это гуд
dvolodin #
05:43
появлась моделька ObjectStatus и дополнительные методы ManagedObject.get_status(), ManagedObject.set_status()
zi_nnov #
05:43
то есть пинг - 1,5 сек ждем - пинг - 1,5 сек ждем - пинг - 1,5 сек ждем - нет ответа значит труп?
dvolodin #
05:44
события PING OK и PING FAILED теперь генерируются только при смене состояния
05:44
для отработки alarm'ов
freeseacher #
05:44
о. это хорошо
dvolodin #
05:44
zi_nnov: нет, каждый пинг - ждем до 3 секунд
freeseacher #
05:44
а частота запуска я так и не понял ? постоянно пинги идут ?
dvolodin #
05:44
постоянно
05:44
раз в секунду пускается новая партия
zi_nnov #
05:46
то есть пинг пинг пинг - 5 сек ждем?
05:47
у меня по графику, после обновления нагрузна на сервер упала на 1 процент
05:47
было 3-4%, стало 2-3
dvolodin #
05:48
из-за пингов?
zi_nnov #
05:48
судя по всему, а что еще обновилось с утра?
dvolodin #
05:48
на классификатор меньше нагрузка, чуть поменьше на SAE
05:48
SAE в базу пишет
05:48
ну и коллекции не будут пухнуть так
zi_nnov #
05:48
в общем, во всех смыслах стало лучше
05:49
для большой сети разница наверняка стала ощутимей
freeseacher #
05:49
хм. все время пинговать это на мой взгляд лишее. на icmp у меня выделена отдельная полоса на коробку
zi_nnov #
05:49
dvolodin, запиши себе где-нибудь, в release notes потом запишешь
freeseacher #
05:49
тут получается нок будет постоянно жрать эту полосу
zi_nnov #
05:50
freeseacher, лучше непрерывный поток, чем спериодические скачки
freeseacher #
05:50
сейчас у меня пинг опрос раз в 30000 секунд.
05:50
мне чаще с моей задачей и не надо.
zi_nnov #
05:50
это вообще дикость
05:50
с таким периодом ты мог бы вообще ничего не пинговать
05:51
ничего бы не изменилось
dvolodin #
05:51
freeseacher: замени 60 на 3600
zi_nnov #
05:51
если с утра что-то навернулось, ты только к вечеру узнаешь
dvolodin #
05:51
zi_nnov: да нет, все правильно
05:51
у нас на сети раз в 5 минут
freeseacher #
05:51
я постоавил такой период что бы избавиться от сообщений пинг ок
zi_nnov #
05:51
их уже давно подавляет система
dvolodin #
05:51
freeseacher: вот их теперь поменьше будет
freeseacher #
05:51
они мгновенно съедали 20 гигов диска выделенные под монгу
05:52
да поменьше это хорошо
05:52
60 на 3600 это типа не каждую секунду а каждую минуту?
zi_nnov #
05:53
dvolodin, а еще у меня раньше пинги шли раз в 3 минуты, а теперь ты сделал 60 сек по дефолту, а нагрузка все равно снизилась, те эффект очень даже существенный
dvolodin #
05:54
не каждую минуту, а каждый час
freeseacher #
05:54
ага я понимаю что каждый час
05:54
просто у меня диссонанс
05:54
<dvolodin> раз в секунду пускается новая партия
05:54
<dvolodin> freeseacher: замени 60 на 3600
dvolodin #
05:54
ну смотри
05:54
на активаторе 600 железок
zi_nnov #
05:54
пинг конкретной железки раз в час, а пинг следующей по списку через секунду
dvolodin #
05:55
каждую секунду начинают проверяться 10 из них
freeseacher #
05:55
ааааа
05:55
да. так пойдет.
dvolodin #
05:56
icmp socket'ы - они без контекста
05:57
в принципе до 100 icmp пакетов в секунду можно слать без особого напряга
zi_nnov #
05:58
dvolodin, ну хорошо, с пингами разобрались, а понаблюдаю за наличием ложных срабатываний. что следующее?
dvolodin #
06:00
еженедельная бюрократическая работа на благо чемпиона ;)
06:00
может кто сделает к карте поллинг статуса
06:00
хотя бы раз в минуту
06:00
серверный метод я сделаю
06:06
дальше у нас по планам - корреляция пингов по топологии
06:06
ага :)
06:06
discovery включенных протоколов
06:06
вот подумайте -- либо мы отдельным скриптом выдираем, что включено
06:07
либо пытаемся в interface discovery проанализиоровать enabled_protocols
zi_nnov #
06:09
не уверен в необходимости дискавери протоколов
freeseacher #
06:09
протокол может быть выключен на порту но включен на коробке
06:10
у меня сейчас так работает Stp bpdu tunneling
06:10
на свитчах 3420
zi_nnov #
06:11
фукнкционально выгода сомнительна
freeseacher #
06:11
глобально на свитче должен быть включен stp а на порту выключен
zi_nnov #
06:11
методы дискавери можно в профиле выставить, обычно железки по шаблону настраиваются
freeseacher #
06:13
так что видимо надо делать отдельным скриптом
lexus-omsk #
06:33
так enabled_protocols же на интерфейс ставится, так что в get_interfaces без проблем можно получить необходимую информацию
06:34
поэтому зачем отдельный скрипт?
zi_rus #
06:34
народ, кто не голосовал, не стесняйтесь
06:34
http://forum.nocproject.org/index.php?topic=162.0
lexus-omsk #
06:36
вот, теперь вроде всё своё там нашёл, проголосовал
dvolodin #
06:40
lexus-omsk: вот я и думаю
06:41
zi_rus: а ты на nag.ru в теме про NOC ссылку кинь
lexus-omsk #
06:42
другое дело, что большинство get_interfaces нужно доработать для этого
ufir #
06:49
хм. а может надо мак-дискавери убирать на транках.. но как это сделать ?
lexus-omsk #
06:54
профилями интерфейсов
ufir #
06:56
а вообще есть смысл снимать дискавери с транков ?
zi_rus #
07:00
в смысле?
ufir #
07:23
get_spanning_tree на 3750 12.2(35)SE5 - иногда отрабатывает нормально, иногда валится в трейсбэк
07:23
что делать ?
lexus-omsk #
07:29
наверное, смотреть, в каких случаях валится и на каком месте - и постить сюда трейс или патч, устраняющий проблему :)
ufir #
07:30
ну я просто 5 раз запустил, три раза нормально отработало, два раза трейсбекнуло.
07:30
постить - много
07:30
25.01.2013 11:18 355 522 C3750-IPBASE-M-get_spanning_tree.NO_traceback
07:30
25.01.2013 11:18 302 869 C3750-IPBASE-M-get_spanning_tree.traceback
lexus-omsk #
07:32
по поводу чего ругается-то?
07:32
в общих чертах
ufir #
07:34
lexus-omsk первый кусок - отработавший, второй - трейс http://pastebin.com/MYmXHZiX
zi_rus #
08:05
dvolodin, чего-то не контачит
08:05
а черт, он сбежал
08:05
пинговалка новая не работает
lexus-omsk #
08:08
ufir: что-то я не пойму, содержимого переменных толком не видно в трейсе, что там в R[2]?
08:09
Похоже, в некоторых случаях что-то отличное от того, что там перечислено в скрипте... состояние порта же может быть разным во время разных запусков скрипта
ufir #
08:09
так и я о том же... но как это отследить
zi_rus #
08:10
а нет, работает
08:11
только алармы не поднимает
ufir #
08:11
а у меня подняла несколько
zi_rus #
08:12
странно
08:12
сейчас проверял
08:12
положил железку
08:12
в алармах только упавший eigrp
08:12
и уведомления на почту не пришло
ufir #
08:13
у меня висят несколько NOC | Managed Object | Ping Failed
zi_rus #
08:13
может это старые
08:13
ufir, ты обновлялся с утра?
ufir #
08:14
да ;)
08:15
но они висят полтора часа уже
zi_rus #
08:15
дважды странно
Dmitry1 #
08:16
ufir: закоммитил исправление для Cisco.IOS.get_spanning_tree
ufir #
08:19
ура, здОрово ;)
zi_rus #
08:51
dvolodin, провел следственный эксперимент, положил железку на минуту, аларм не поднялся
dvolodin #
08:52
tcpdump'ом посмотри, пинги идут на нее
08:52
и еще
08:52
в монго
ufir #
08:53
а почему некоторые иконки стали блин оранжевыми ?
dvolodin #
08:53
db.noc.cache.object_status.find()
08:54
ufir: упало
Dmitry1 #
08:56
А в network map zoom работает? А то при уменьшении картинки он начинает "обрезать" иконку
dvolodin #
08:57
вроде работал
zi_rus #
08:58
dvolodin, tcpdump icmp вообще ничего не показывает
08:58
хотя некоторые железки он покрасил оранжевым (имхо, лучше красный, оранжевый для алармов оставить)
Dmitry1 #
08:58
Я тоже помню, чт работал. Сейчас начал очень странно работать. При уменьшении картинки вместо масштабирования, начинает отрезать кусеи от нее
zi_rus #
09:03
dvolodin, вопрос снят, я сам дурак
dvolodin #
09:03
zi_rus: ?
zi_rus #
09:03
в конфиге не ту секцию настройки прописал
dvolodin #
09:03
не то отключил?
09:03
заработало?
zi_rus #
09:03
да
dvolodin #
09:03
ну чудно
09:04
дальше можем реализовать адаптивный интервал для пинга
09:04
и, абсолютно случайно и почти забесплатно - outage report
09:04
мы все равно отслеживаем изменение статуса в таблице
09:04
достаточно сделать еще одну таблицу с историей простоев
zi_rus #
09:05
шикарно, этот репорт в новый UI сразу создать и возможность выгрузки в csv/html
dvolodin #
09:05
типа <объект>, <статус>, <время>
09:06
или даже еще проще
09:06
<объект>, <время начала простоя>, <время окончания простоя>
10:02
zi_rus: держится попингуйка?
zi_rus #
10:16
dvolodin, не понял, в смысле ложных аварий? они не так часто, надо хотя бы недельку. слушай, тут такой момент я не догнал, вот я поправил в конфиге свой косяк, рестартанул нок, он пропинговал и прислал кучу алармов, это все актуальные, железки еще не установ
10:16
лены, так вот по этим же железкам с СА и на карте отметки, что они недоступны, стоят еще с утра, когда я обновился но еще не испортил конфиг, но в ФМ алармов не было, потом я поправил, и перезапустил нок, поднялись алармы и пришли письма. как это понимать,
10:16
он при перезапуске не будет случайно переоткрывать все алармы или это просто какой-то глюк был?
dvolodin #
10:17
он при перезапуске действительно переподнимет алармы
10:17
наверное, надо сделать типа галочки - что железка действительно должна лежать
10:18
типа плановых работ
10:18
или is_managed снимать с них
zi_rus #
10:22
dvolodin, сделай сразу, я думаю это вещь решается где-то рядом, чтобы аларм не поднимался если по железке еще не было успешных пингов
dvolodin #
10:23
хм
10:23
подумать надо
zi_rus #
10:25
и что-то тест опять провалился, выбрал один свой свич кладу на него линк, ждал 5 минут, аларма нет, смтрю tcpdump, на этот ip пинги не идут
10:26
Trap source IP верный
10:26
в профиль общий, как у всех, включена проверка пингами
10:27
и эта похоже не одна такая железка
10:31
dvolodin, я нашел еще раз в чем косяк, когда я параметры ping_instance и ping_interval указываю в конфиге активатора в секции activator, он перестает пинговать, удаляю, все начинает работать
dvolodin #
10:32
хм
10:32
а что ты указываешь в конфиге?
zi_rus #
10:34
да прям тоже самое ячто в дефолте
10:35
скопировал и вставил
dvolodin #
10:38
только что проверил
10:38
нормально все
acid232 #
10:38
гистерезис только запилите
10:38
чтобы флапами домовые свичи не доставали
zi_rus #
10:40
dvolodin, странно, действительно, стер, заново скопировал, нет проблемы
ufir #
10:43
а как созданный interface profile куда-нибудь применить ?
zi_rus #
10:43
жесть, судя по опросу, все используют только циски или длинки
10:43
ufir, в ивентори вешаешь на физический порт
ufir #
10:46
zi_rus не, у меня много хуавеев, старых длинков, жуниперов и еджкоров с кьютечами
zi_rus #
10:46
то есть из двух голосов один из них твой
ufir #
10:48
zi_rus в inventory->interfaces там где у железяки physical - там только link/unlink
zi_rus #
10:48
ufir, пятый столбец
ufir #
10:49
zi_rus эк оно там затарено ;) не подсказал бы - в жизни внимания бы не обратил
zi_rus #
10:50
по-моему это одна из очевидных вещей, есть куда более сложные
11:04
я тут еще подумал, может логотип, который в углу висит в векторном формате лучше сделать
11:05
он и масштабирутеся лучше и под ретину и и под большие экраны
11:05
и весить должен меньше, он вроде простой
dvolodin #
11:22
простой совсем
11:22
да, надо SVG подложить
ufir #
11:23
допилите плиз скрипт для хуавея, чтобы дискаверил физические интерфейсы
acid232 #
11:23
а что он разве не дискаверит
ufir #
11:23
неа. только аггрегированные и л3
acid232 #
11:24
странно
11:24
а я обновиться хотел
11:24
у меня в инвентори полно интерфейсов
11:24
с хуавеев 2326
ufir #
11:25
вот он чего дискаверит http://pastebin.com/R8c0inKp
11:25
железяка VRP (R) software, Version 5.50 (ME60 V100R006C05SPC600)
acid232 #
11:26
ну у тебя ME да
11:26
хуавеевский брас
11:26
я знаю у местных домосетей которые инвестиционные - в почете :)
11:26
L3-bras
ufir #
11:27
работает нормально... правда допиливали софт почти года 3
11:27
только я больше 10 тикетов открывал
11:27
ну вообщем он не дискаверит физические интерфейсыф
acid232 #
11:28
get_interfaces смотри
zi_rus #
11:28
и что ему мешает?
ufir #
11:29
а я хз
11:29
но с его точки зрения, гигабит - это и гигабит, и десятка
acid232 #
11:29
display interfaces покажи
11:29
у них вообще странные названия интерфейсов
11:29
MEth например
ufir #
11:30
вот принер с живой железки
11:30
InUti/OutUti: input utility/output utility
11:30
Interface PHY Protocol InUti OutUti inErrors outErrors
11:30
Aux0/0/1 down down 0% 0% 0 0
11:30
Eth-Trunk1 up up 33% 8% 0 0
11:30
GigabitEthernet1/0/0 up up 33% 8% 0 0
11:30
Eth-Trunk2 up up 0.01% 0.01% 0 0
11:30
GigabitEthernet2/0/0 up up 0.01% 0.01% 0 0
11:30
GigabitEthernet0/0/0 down down 0% 0% 0 0
11:30
GigabitEthernet1/0/1 down down 0% 0% 0 0
zi_rus #
11:30
ufir, а ты откуда?
ufir #
11:30
вот с сабами
11:30
GigabitEthernet4/0/0 up down 6% 0.89% 0 0
11:30
GigabitEthernet4/0/0.155 up up 0.01% 0.01% 0 0
11:30
GigabitEthernet4/0/0.185 up up 0.01% 0.01% 0 0
11:30
zi_rus из Марий Эл
zi_rus #
11:31
почти рядом
ufir #
11:31
а ты откуда ? ;)
zi_rus #
11:32
НН
dvolodin #
11:32
zi_rus: попробуй последний патч, будет в noc.fm.outages историю аварий складывать
ufir #
11:32
один только вывод get_interfaces занимает -rw------- 1 root root 2175572 Jan 25 15:22 bras-2-out
zi_rus #
11:33
dvolodin, обновился, куда смотреть?
11:34
ufir, всего 240км
acid232 #
11:35
zi_rus: 3-4мс )
zi_rus #
11:38
dvolodin, я не знаю как по нормальному посмотреть, но как смог придумать
11:38
> db.noc.fm.outages.find()
11:38
{ "_id" : ObjectId("51026ed8f3b6821707000081"), "start" : ISODate("2013-01-25T15:39:04.191Z"), "object" : 2423 }
11:38
{ "_id" : ObjectId("51026edbf3b68217070000aa"), "start" : ISODate("2013-01-25T15:39:07.253Z"), "object" : 2438 }
11:38
...
11:40
репорт бы теперь по этим данным налабать
`kk #
11:45
редактирование юзверей у кого-нибудь работает ?
ufir #
11:48
zi_rus а у тебя что, тоже такой хуавей-брас есть ?
zi_rus #
11:48
нет, просто пробил по whois ip с пастебина
11:49
думал ты ближе
11:52
километров на 200
ufir #
11:53
=\
dvolodin #
12:00
ufir: нет, он сам хуавей, правда без браса :)
zi_rus #
12:04
да уж
12:04
можно было радоваться
12:04
только как работать в конторе которую не уважаешь
dvolodin #
12:05
хм
ufir #
12:05
чота не получается у меня нихера
12:05
пробовал скрипт поправить - не падает, но и не дискаверит ничего
zi_rus #
12:14
dvolodin, ну а что. я уважаю качество, а эта контора, по крайней мере та ее часть что занимается производством железа, не производит качественных продуктов, вся их так называемая успешность и крупные клиенты это лишь от того что они готовы продавать деше
12:14
вле остальных, а у крупных клиентов как раз принимают решение люди которые в первую очередь смотрят на цену
12:15
мне повезло, я еще не сталкивался с их железом, но уже наслушался счастливых клиентов
12:16
или например правило хорошего тона в программировании, зачем когда они пишут софт в различных версиях вывод одних и тех же команд различается
acid232 #
12:17
интересно для хуавея тоже софт в индии пишут
12:17
или все же в китае
zi_rus #
12:18
ну у них R&D вроде как по всему миру, так что все возможно
ufir #
12:18
а кто тут злостный хуавейщик ? почините мне скриптеца
zi_rus #
12:21
вон у циски show ip route появился еще во времена динозавров, версия 9,2, я даже не могу найти когда она вышла, и все четко одна команда на многие годы и многие версии
12:24
и это я не говорю про забагованый софт, ошибки есть у всех, но когда они заявляют что так и задумано или делают тебе фикс прямо под конкретную железку не отправляя его в апстрим, это тоже о чем-то говорит
12:26
dvolodin, с новой пинговалкой нагрузка на цпу сервера стабилизировалась на одном проценте, уровень фоновой нагрузки, красота
`kk #
12:27
какой там самый "читаемый" get_interfaces ?
zi_rus #
12:29
и нагрузка на сеть снизилась, был 8,6кбита/с, стало 3,4
12:30
это брызги на гиговом интерфейсе, но в release notes можно записать "уменьшилась в 2,5 раза загрузка сети"
dvolodin #
12:30
снизилась потому как оптимизирован обмен между SAE и активатором
12:31
с активатора отсылаются только изменения статусов
12:31
и они уходят на SAE пачками раз в секунду
zi_rus #
12:31
активатор стоит на том же сервере, сеть не задействуется
dvolodin #
12:31
а
zi_rus #
12:32
то есть в других случаях разница будет еще существенней
12:32
в общем это одно из самых полезных изменений за последние полгода
dvolodin #
12:36
софт для хуавея пишут в индии
12:36
VRP у них базируется на VxWorks
ufir #
12:36
ето мы знаем
12:37
один фиг - нет интерфейсов, не дискаверит ;)
dvolodin #
12:37
мне очень нравились у них файлы ARJ :)
12:37
которые распаковывались при загрузке
12:37
zi_rus: я думаю, загрузка интерфейса упала из-за того, что пинги стали сильно равномернее
zi_rus #
12:40
ну в общем теперь надо адльше двигаться
12:40
к графикам :)
12:42
или хотя бы к учету топологии в ФМ, чтобы падениежелезки не вызывало тучу алармов по связаным причинам
12:43
меня например немного напрягает что одна железка упала а лармов 30. потому что каждый сосед решил сообщить что eigrp сосед пропал
acid232 #
12:47
ARJ это круто
zi_home #
20:26
очень странные вещи с новой пинговалкой творятся, она похоже отсыхает через какое-то время
20:26
попробую понаблюдать
20:27
и еще нет переменной чтобы ее отключить, вдруг кому-то нет необходимости в ней
_4ePTeHok #
20:27
такс, ну инет я себе разрулил..
20:27
что там нужно еще по ежикам подтянуть?
ufir #
20:30
ты бы это - раз в земле обетованной
20:30
шаббат бы соблюдал
_4ePTeHok #
20:32
а я не подписывался)
ufir #
20:32
иди водки лучше замахни
_4ePTeHok #
20:32
водочка ок, да)
ufir #
20:32
а я тебя в понедельнег попенаю, расскажешь чо там за дзен с ежами
20:32
кстати кьютечи - ты писал ?
_4ePTeHok #
20:32
но ты зашли
20:32
на почту
20:33
не, не я
20:33
в логах канала покопай
ufir #
20:33
да логи канала... это просто логи...
20:33
тут рыть затрахаешься
_4ePTeHok #
20:33
мои только SCE и Opticin с куском Edgecore
ufir #
20:34
сделали бы, блин букварь, ткак писать скрипты и кастомизировать их под разные коробки и версии софта ;(
dvolodin #
21:32
ufir: думаешь, уже пора?
_4ePTeHok #
21:53
=)
21:53
как будто примеров мало)
Tweet
Share this page
Share this page: Tweet