#nocproject.org IRC logs for 03.09.2012

#nocproject.org at irc.freenode.net log.

Back to nocproject.org Back to IRC log index
Date: 03.09.2012

shirokih #

03:39

hi

dvolodin #

05:33

идея с запуском задач по alarm'у вполне удалась

05:33

на link down теперь запускается job, которые периодически проверяет статус линка

05:34

выводим наш FM на новый уровень ;)

zi_rus #

05:35

красота

Guest77-ru #

05:36

Надо добавить поиск причины и групировки алярмов.

zi_rus #

05:36

но у меня такое чувство, что если я сейчас задам пару уточняющих вопросов, то у меня будут замечания :)

Guest77-ru #

05:36

Например упал линк на магистрали и соотведственно пришол 10 пингфейлд..

dvolodin #

05:37

технически выглядит так

05:37

http://code.nocproject.org/browse/noc/fm/collections/alarmclasses/Network/Link.json?hb=true#to203

05:37

секция jobs в alarm class

Guest77-ru #

05:37

Так вот все эти 10 пинг фейлд должны отображатся когда нажимаешь "плюсик" на линк довн.

zi_rus #

05:37

dvolodin, ты пропустил разговор где мы обсуждали то что ты отметил как интервал?

dvolodin #

05:37

http://code.nocproject.org/browse/noc/fm/correlator/jobs/check_link.py?hb=true

05:38

вот сам job

05:38

zi_rus: почему пропустил

05:38

давай конкретное описание алгоритма и формулу рассчета

05:39

будем обсуждать и думать

zi_rus #

05:39

алгоритм простой, интервал со временем увеличивается

05:39

формулу надо подумать

dvolodin #

05:39

опиши :)

05:40

http://kb.nocproject.org/display/DEV/Home

05:40

В OpenDiscussions

Guest77-ru #

05:40

А когда пинговалка запинговала эти 10 пинг фейлд, и линкап потерялся то целесообразно дёрнуть и посмотреть статус того интерфейса, закрыть алярм линк довн.

zi_rus #

05:40

в момент возникновения аларма, с малой задержкой происходит первая проверка, потом по нарастающей, в реже и реже, когда достигается период например 10-30 минут таким и остается

Guest77-ru #

05:42

dvolodin: rootcause - это сила! Можно посидеть и придумать очень быстрые и эффективные алгоритмы для управления многими алярмами.

dvolodin #

05:43

zi_rus: вот подумай, напиши proposal

zi_rus #

05:43

Guest77-ru, для начала надо на автомате надо линки в базу начать укладывать

dvolodin #

05:43

реализовать, я думаю, дело 15 минут

05:43

Guest77-ru: ты говоришь про корреляцию по топологии

05:44

в принципе тут уже ничего не держит нас

Guest77-ru #

05:44

Пример как связать ping faild & link down я приводил. Скрипт для укладывания линков в базу давал.

05:45

Алгоритмы поиска всех путей к корню или выходов наружу, определяющих доступность объекта приводил.

dvolodin #

05:45

Алгоритм там несложный, да

Guest77-ru #

05:46

Надо к МО добавить ещё одно поле, или привязать - "всех путей к корню или выходов наружу"

dvolodin #

05:46

нужно будет сделать библиотечку для поиска всех возможных путей с ограничениями

zi_rus #

05:47

dvolodin, Guest77-ru, кстати я тут в пятницу подумал, планировалось повышать severity аларма, если он затронул много проблем, но есть такая мысль, предварительно рассчитывать и хвранить severity каждого МО и каждого линка, чтобы при падении не ждать пока все пинги от

05:47

валятся, а сразу поднимать аларм высшего приоритета

dvolodin #

05:47

пока из нерешенных вопросов -- какой из интерфейсов делать root'ом при подении

05:47

ъ

05:47

нужна приоретизация железок

05:47

zi_rus: именно

Guest77-ru #

05:47

Какраз поиск путей очень сложный алгоритм, я все его варианты скопипастил...

dvolodin #

05:47

я думал насчет periodic'а

05:48

который заранее считает приоритет MO и интерфейса

05:48

Guest77-ru: дейкстра с модификациями

05:48

там несколько задач у нас

05:48

SPF, CSPF

Guest77-ru #

05:48

Нет дейкстра сложен!

dvolodin #

05:48

поиск всех путей и поиск всех путей с ограничениями

05:49

скажем так -- алгоритмическая часть меня не сильно беспокоит

05:50

а вот приоритеты считать - тут разные толкования

05:50

явно, что железка с MPLS более приоритетна, чем железка с L3

05:50

а L3 более приоритетен, чем L2

zi_rus #

05:51

некоторые внешние порты очень важны

05:51

аплинк, или супер vip клиент

dvolodin #

05:51

eBGP, наверное, более приоритетен, чем MPLS

05:51

о

05:51

может в interface profile добавим priority

05:51

и link alarm severity

Guest77-ru #

05:51

Если иметь поле в котором есть все маршруты объекта то приоритет можно вычеслить изходя из количества конкретного МО в этих путях.

dvolodin #

05:52

пусть пока из него навешивает

zi_rus #

05:52

в профиль или просто переменная в свойствах каждого порта?

dvolodin #

05:52

в профиль

05:52

можно сделать и 2 уровня

05:52

порт - профиль

05:52

настроено на порту - берем его

05:52

нет - берем из профиля

05:52

не задано в профиле -- берем default

Guest77-ru #

05:52

Да и вес нужен только приочень сложных кольцевых топологиях, при звезде он не нужен вообще и в большинстве случаев тоже.

dvolodin #

05:53

Guest77-ru: звезда - вырожденный случай плоского кольца :)~

05:53

давайте не будем говорить "не нужен" :)

05:54

двухшаговый поиск приоритета я могу сделать

05:54

далее, по новостям FM

05:54

поборол проблему с парными alarm'ами

05:54

для классов вроде ARP MAC Changed

05:54

суть такова

05:55

там дискриминатор определяется по (ip, from_mac, to_mac)

Guest77-ru #

05:55

Ну в том алгоритме который я приводил для связывания линк довн и пинг фейлд, и только что для запуска проверки интерфейсов только после востановления пингов весы для звёздной топологии не нужны.

dvolodin #

05:55

соответсвенно, при флапе туда-сюда поднимается 2 аларма

05:55

(ip, mac1, mac2) и (ip, mac2, mac1)

Guest77-ru #

05:56

Ладно, надо отлучится.

dvolodin #

05:56

поборол сортировкой значений полей

05:56

теперь все эти события падают в один alarm

zi_rus #

05:58

а такое сможешь разрулить: "... in vlan 2337 is flapping between port and port " - порты не указаны, это значит флапает в VPLS между двумя PEшками

05:58

то с одной приходит, то с другой ( на третью

05:58

)

dvolodin #

05:59

надо смотреть последовательность событий

zi_rus #

05:59

dvolodin, она такая http://pastebin.com/R8HAQvuT :)

dvolodin #

06:00

7600 ?

zi_rus #

06:00

ага

dvolodin #

06:00

ES20-е?

zi_rus #

06:01

ES+

dvolodin #

06:01

один фиг, деревяшка :)

06:01

ругается PE ?

zi_rus #

06:01

да

dvolodin #

06:01

MAC приходит то с L2, то с VPLS ?

zi_rus #

06:02

нет

06:02

там вплс (vfi) , 3 РЕ, приходит то с одной, то с другой

06:02

это жалоба от третьей

dvolodin #

06:03

и матерятся, надо думать, все PE-шки, кроме первых двух?

06:03

куда этот MAC залетает

06:03

так?

zi_rus #

06:04

когда вплс на трех РЕ и ты говоришь "все кроме двух, это странно звучит"

dvolodin #

06:04

если у тебя больше 3 PE

zi_rus #

06:04

*"все кроме двух", это странно звучит

dvolodin #

06:04

то будут ругаться и другие

zi_rus #

06:04

ну да, наверное, больше трех пока не было

dvolodin #

06:05

жопа в другом

06:05

нет информации, в каком это VPLS

zi_rus #

06:05

по влану можно определить

dvolodin #

06:05

да ну

06:05

:)

zi_rus #

06:06

что не так?

dvolodin #

06:06

что мешает двум разным клиентам сделать себе vlan 2337?

06:06

и гонять его через свои vpls'ы?

06:07

у тебя полукольцо, терминированное на 2 PE

zi_rus #

06:07

верно

dvolodin #

06:07

которое флапает и в нем перестраивается топология

06:07

так?

06:08

так какое тебе дело до клиенских vlan'ов?

zi_rus #

06:08

ты знаешь, оно не совсем флапает

dvolodin #

06:08

ты вообще про них, считай, ничего знать не должен

06:09

ну не суть важно

06:09

тебе один и тот же MAC падает в разные PE по очереди

zi_rus #

06:09

ну да, это логично

06:09

я бы даже сказал, очевидно

dvolodin #

06:09

как он до жизни такой дошел, не важно

06:10

STP там перестаивается, или клиент так чудесно подключен

06:10

у тебя есть MAC и есть VLAN

06:10

VLAN - вообще ничего не дает, так как у тебя там может быть куча клиентов

06:11

которые используют этот VLAN id и по q-in-q упираются в PE

06:11

так?

zi_rus #

06:11

в нормальной схеме, may be, у нас - нет

dvolodin #

06:11

если ты форвардишь клиентские vlan'ы в VPLS

zi_rus #

06:11

влан - это клиент, у нас редко берут q-in-q

dvolodin #

06:12

ну тогда да -- шансы что-то установить у тебя имеются

06:12

тут если только с базой маков поиграться

06:12

в общем резюме такое

06:13

флап мака в VPLS - можно сделать отдельное событие, когда известен только MAC и VLAN

06:13

можно на всех PE-шках подшить это к одному alarm'у

06:14

выдать более осмысленную диагностику можно только в случае, если ты не гонишь клиентские vlan'ы

zi_rus #

06:15

а если допустим гоню? разве там будет светиться номер клиентского влана, а не только верхний провайдерский?

dvolodin #

06:15

эээ

06:15

как у тебя верхний провайдерский vlan вообще в vpls светится?

zi_rus #

06:16

эээ

dvolodin #

06:16

ты его на входе снимаешь

06:16

и на выходе вешаешь

zi_rus #

06:16

разве?

dvolodin #

06:17

ну если только SIP'ы по другому делают

zi_rus #

06:17

нет, ну да, наверное, в мплс пакете будет только клиентские данные - его q-тег и пейлоад

dvolodin #

06:17

ну да

zi_rus #

06:17

но причем тут это

dvolodin #

06:18

1-2-3 MPLS-метки сверху и фрейм с клиентским vlan'ом

zi_rus #

06:18

в логах на входе в РЕ

06:18

для РЕ - существует только провайдерский лван

06:19

*vlan

06:19

с чего это он мне в логах будет пусать что мак флапается в каких-то клиентских вланах?

06:20

PS могу рассуждать только теоретически, на сети есть q-in-q, но проблем с ними еще ни разу не было

dvolodin #

06:29

возможно

06:30

там явно еще cisco-specific заморочки могут быть

06:30

я VPLS'ы только на MX дрючил, и еще в лабе на Huawei

06:33

в то время ES20 был сырым и глючным неработающим барахлом :-/

06:33

ладно, поехали дальше

zi_rus #

06:33

да

dvolodin #

06:33

в inventory -> interfaces

06:33

допилил combobox с managed objects

06:33

вроде paging вменяемый стал

zi_rus #

06:33

я бы не сказал что пейджер - это решение

06:34

больше похоже на костыль, как временная подпорка

dvolodin #

06:35

в рамках доброго подкола - ты видел, как железнодорожники продают билеты?

06:35

интерфейс оператора :)

zi_rus #

06:36

не довелось

dvolodin #

06:36

жаль

06:37

там действительно интуитивно понятный и удобный интерфейс

06:37

но нам до такого - далеко

zi_rus #

06:38

значит знаешь к чему надо стремиться

dvolodin #

06:38

оператор просто вводит мешанину букв и цифр в черном окне

06:38

на каком-то подонковском диалекте ассемблера :)

zi_rus #

06:39

видимо я не понял сарказма

dvolodin #

06:40

это надо видеть просто

06:40

вживую

06:41

интерфейс времен ЕС ЭВМ в виндовом окне

zi_rus #

06:41

лично я не вижу выгоды иметь преимущество перед убогими, надо найти того, кто лучше, и превзойти, тогда может что-то получиться

dvolodin #

06:43

имя будущей жертвы назовешь?

zi_rus #

06:43

dvolodin, для ФМ - обойди IBM NetCool

dvolodin #

06:44

а вот забавный вопрос -- надо ли?

06:44

что это даст и что получится в результате?

evyscr #

06:51

философские вопросы по утрам на канале #nocproject.org

dvolodin #

06:52

надо же проснуться :)

zi_rus #

06:52

кому даст? пользователям будет возможность бесплатно использовать фолт менеджмент высшего уровня; тебе, ну не знаю, ради чего ты развиваешь нок, вот это и получишь; а еще это будет одной из частей единой программы для комплексного управления сетью,

06:52

то что сейчас делают 3 программы, сможет делать одна, а интеграция всех модулей друг с другом есть очень сильное преимущество, но без высокого качества отдельных модулей - это бесполезно

dvolodin #

06:54

ну ладно, хотя слово "бесплатный" можно исключить

06:54

внедрение любого фолта - это серьезная работа и определенные затрары

06:54

затраты

zi_rus #

06:54

я тоже сомневался над этим словом

dvolodin #

06:55

на фоне которых стоимость софта и лицензий - не самое существенное

zi_rus #

06:55

все же стоимость софта и стоимость поддержки/внедрения - разные вещи

dvolodin #

06:55

ну тем не менее

zi_rus #

06:56

когда есть RHEL, Centos не теряет популярности

dvolodin #

06:56

centos не разрабатывает софт

06:56

а просто билдит готовые rpm

evyscr #

06:57

ну, утверждается, что ряд своих патчей у них таки есть

06:57

(не то, чтобы я их видел)

zi_rus #

06:57

dvolodin, все же я говорю со стороны пользователя

dvolodin #

06:57

на фоне количества позаимствованного - думаю немного

evyscr #

06:58

скорее, ещё меньше :)

zi_rus #

06:58

ред хат тоже не все разрабатывает

evyscr #

06:58

в смысле?

dvolodin #

06:58

дождемся альтернативных сборок NOC со своими патчами ;)

zi_rus #

06:59

есть какие-то свои проприетарные утилиты, но большей частью их линукс - очередная сборка из гнома, линуксового ядра, офиса и прочих чужих разработок

evyscr #

07:00

dvolodin: я ж показывал на шабу ;)

07:00

там вроде бы тоже есть патчи.

07:01

и живёт оно не в /opt/noc, а согласно fhs

dvolodin #

07:01

это нефункциональные все-таки

evyscr #

07:01

данное уточнение прозвучало только сейчас ;)

07:02

а в сборке вообще функиональные вещи добавляют обычно лишь в случае невменяемого апстрима

dvolodin #

07:02

ну, скажем так, пара дополнительных кастомных модулей для NGN-сетей есть

evyscr #

07:03

хм... extensions.nocproject.org ?

dvolodin #

07:24

как правило, нужны сильно специфичные вещи и отчеты

07:24

которые больше никому не интересны

misak #

07:49

добрый день

07:49

ну что, можно апгрейдиться ?

zi_rus #

07:50

дерзай

dvolodin #

07:57

да в принципе, можно

07:58

вроде расколбас с поллингом преодолели

07:58

zi_rus: у нас еще была проблема с положением NS записей в reverse зонах

07:58

она ушла?

zi_rus #

07:59

не в реверсах, а во всех

07:59

после твоего патча теперь нс в самом низу рисуются

07:59

больше не менялось

misak #

07:59

а что-нибудь надо, подключать/править в конфигах ?

zi_rus #

08:00

dvolodin, а смотрю в прямой зоне так посреди зоны и торчат

08:01

misak, нет

dvolodin #

08:01

zi_rus: проверяй реверсы с патчами

zi_rus #

08:03

Обновляюсь

08:06

dvolodin, ок нс'ы поднялись, а по отстпу так и не определились

08:07

*отступу

lexus-omsk #

08:13

dvolodin: вроде сохранилась проблема NOC-656... по крайней мере на epoll и kevent... хотя вот за несколько часов с последнего обновления проц в 100% не уходит, но трейсы те же сыпятся

dvolodin #

08:14

zi_rus: по отступам ты не написал вменяемого алгоритма

08:14

lexus-omsk: как это у тебя одновременно по epoll и kevent летит?

lexus-omsk #

08:15

почему одновременно, разные варианты пробовал

08:15

имеет значение, что устройства, на которые он ломится, не живые?

zi_rus #

08:15

dvolodin, как так, я дал значения, а ты потом начал развивать, была одна переменная, я сделал 2, ты - 4, да еще и в конфиг их захотел запилить, и бросил

lexus-omsk #

08:15

по-моему, только на них вылетает... хотя не уверен

zi_rus #

08:19

dvolodin, ты коррелятор поломал

08:19

dvolodin, http://pastebin.com/PqLbdrE8

08:20

lexus-omsk, у меня kevent работает без трейсов

dvolodin #

08:21

zi_rus: это пролечится само

08:21

перезапусти его еще раз

zi_rus #

08:22

нет, не сработало

dvolodin #

08:27

mongo noc

08:27

db.noc.schedules.fm.correlator.drop()

zi_rus #

08:29

так помогло

08:29

какой грубый способ

dvolodin #

08:29

это переходящее, больше не будет

08:29

да не

08:29

я в отдельные поля вынес параметры графика

_4ePTeHok #

08:47

работа кипит)

dvolodin #

08:47

а то

_4ePTeHok #

08:47

dvolodin, как насчет статуса интерфейса в inv-interfaces?)

08:48

цвет значка link предлагаю менять

dvolodin #

08:48

патчик давай

08:48

можно рисовать зеленый и красный кружок

zi_rus #

08:49

и это при трех состояния

08:50

up - down - admin down

08:50

а еще есть err-disable

08:50

даже 4 состояния

_4ePTeHok #

08:51

там надо определиться откуда и как брать статус. Я предлагал брать из бд дискавери(он же куда то кладет status), а затем обновлять по необходимости из get_int_status/fm - нужно тогда чтобы они в одно место записывали результат.

dvolodin #

08:51

err-disable - это down

_4ePTeHok #

08:52

zi_rus, в скриптах сейчас 2 состояния для status - true/false

08:52

admin/oper в большинстве скриптов одинаковые вещи

08:53

если уж докучи - то порт может быть loopback detect blocked, которое отдельным скриптом только выявится.

08:53

т.к. на ежах к примеру нет err-disable понятия.

08:54

dvolodin, статусы то разделили? Я чот упустил когда.

dvolodin #

08:55

не разделили пока

_4ePTeHok #

08:56

ты в шапке раздели, скрипты допилим сами.

dvolodin #

08:57

может сделать oper status булевским и отдельное поле с причниной false ?

_4ePTeHok #

08:57

имхо усложнение.

dvolodin #

08:58

или вообще так

08:58

status -- это oper status

08:58

а reason для false -- administratively down, err-disabled, link down

08:59

то есть ответ на вопрос -- живой или нет

08:59

и отдельный -- почему неживой

_4ePTeHok #

08:59

а если stp...Up, но discarded?

lexus-omsk #

09:02

stp - это ж отдельный скрипт со своими состояниями... мне нравится (на первый взгляд) вариант с status и отдельным полем под причину

_4ePTeHok #

09:12

lexus-omsk, дык loopback тоже отдельный

dvolodin #

09:13

я думаю, надо оставить get_interface_status как есть

09:13

и сделать что-то вроде extended_interface_status

_4ePTeHok #

09:14

гм. и дергать железку несколько раз?)

09:14

ладно, давайте сделаем в inv-interfaces хотя бы булевое представление статуса.

dvolodin #

09:14

если тебе надо знать, что порт лежит или стоит -- дернешь статус

09:17

если хочешь знать, почему лежит -- дернешь extendend status

_4ePTeHok #

09:18

dvolodin, там проблема в том, что будет парсится вывод одной и той же команды. Т.е. 2 раза дергать одно и то же

dvolodin #

09:19

почему?

_4ePTeHok #

09:19

сделайте хоть нормальные oper и admin status.

09:19

Vty-0#sh int statu

09:19

Port Admin: Up

09:19

Current Status:

09:19

Link Status: Up

09:19

Port Operation Status: Up

09:19

и это в одном выводе.

09:21

Port Admin: Down

09:21

Current Status:

09:21

Link Status: Down

09:21

Link Down Reason: Port Admin

09:21

как пример для ежа

zi_rus #

09:22

я тоже за вариант, чтобы сразу что и почему выводилось, а не если хочешь так то этот скрипт, а если по-другому, то вот этот

09:23

что такого что он сразу выведет нужную информацию

_4ePTeHok #

09:23

сделайте необязательными параметры

09:23

потихоньку подтянем скрипты

dvolodin #

09:29

давайте все-таки определимся, какие скрипты подтягивать

09:29

get_interfaces не хочется

09:30

это все-таки статика

_4ePTeHok #

09:30

там и так снимаются оба статуса

09:31

она полезна для инициализации статуса ифейса с бд без лишнего вызова скриптов

09:31

и актуализации состояния в долгосрочном периоде

09:32

при необходимости обновления статуса пусть дергается get_int_status

09:33

при прилетании трапа от FM - пусть будет обновление статуса ифейса в БД

09:35

ты же не будешь дергать скрипт при каждом отображении объекта в интерфейсе inv-interfaces

09:36

проще из БД брать состояние "средней" актуальности, сформированное get_interfaces/FM/alarm_job, и отдельно выведенной кнопкой - update int status, для актуализации статуса "прям счас" - запуском get_int_status.

zi_rus #

09:45

с учетом трапов, состояние будет вполне актуальным

09:45

и я почти уверен что в подавляющем большинстве случаев будет не хуже чем от запуска скрипта

_4ePTeHok #

09:46

ну там будут возможные размолвки

09:46

типа трап потерялся

09:46

в общем метод кнопки "обновить прям счас" - я бы оставил

09:46

для контроля уж если на то пошло

zi_rus #

09:47

_4ePTeHok, для потеряных трапов и введены недавние джобы

_4ePTeHok #

09:47

это если трап о поднятии потерялся поможет. А если трап о падении ифейса потерялся - какой там джоб)

09:48

алярма то нету

zi_rus #

09:48

если это единственный линк до МО, то будет пинг файлед аларм, а к нему соответствующие проверки

09:49

если не единственный значит есть как минимум 2 МО которые в состоянии прислать трап, те и так невысокая вероятность потери уменьшается еще сильней

_4ePTeHok #

09:49

ну пусть так, но я бы оставил возможность проверить сейчас.

09:50

кстате, dvolodin, а можно же сделать, чтобы FM брал при падении линка инфу из инвенори, и соответственно "обогащал" инфу в алярме.

zi_rus #

09:50

конечно надо оставить, вернее наоборот, реализовать

09:50

_4ePTeHok, тык он вроде так и делает, дескрипшены дергает

_4ePTeHok #

09:50

т е добавлял парный порт с другой стороны

09:51

к примеру

09:51

та железка(если линк для нее аплинком является) ничего не сможет отослать)

zi_rus #

09:51

парный порт надо для начала прописать, автоматической системы нету

_4ePTeHok #

09:51

ну я пока ручками..)

09:51

медленно но верно)

zi_rus #

09:51

я как раз хотел пробить, чтобы автозаполнение сделали

09:52

а потом уже эту информацию в фм целях юзать

_4ePTeHok #

09:52

это надо какой то task в шедулере делать

zi_rus #

09:53

да зачем, есть дискавери, на него и надо это вешать

_4ePTeHok #

09:53

чтобы с периодикой проверял и вносил изменения в линки

09:53

дискавери не определит маки/lldp нейборов

zi_rus #

09:53

пока что

_4ePTeHok #

09:53

это же построение топологии по сути

zi_rus #

09:54

я думаю, что все что связано со сбором глобальной информации по сети должен делать дискавери

09:55

автообнаружение МО, МО version inventory, линки на МО, маки на линках, ip, lldp, etc. все это должен делать дискавери

09:56

зашел, допросил, ушел, записал

_4ePTeHok #

09:56

получится этакая "ушатывалка" железок_

09:56

:)

zi_rus #

09:56

с периодикой раз в несколько дней - не проблема

freeseacher #

09:56

автоматизатор аварий :)

_4ePTeHok #

09:56

пришел "слышь чо, есть маки? а если lldp найду?"

09:57

а железке потом оправлятся 2 дня0

09:57

)

freeseacher #

09:57

ага

_4ePTeHok #

09:58

но по логике согласен..

freeseacher #

09:58

в случае если железка говорит чо то не то: читай exeption self.cli("shutdown")

_4ePTeHok #

09:58

не, config erase & reload)

freeseacher #

09:59

шатдаун кросплатформенный :)

_4ePTeHok #

09:59

на ежах нету команды выключить)

09:59

только ребут

mikevlz|3 #

10:38

а вы страшные личности...

freeseacher #

10:41

даже думать о таких вещах страшно :)

dvolodin #

10:48

alarm jobs проверили на практике?

lexus-omsk #

11:01

dvolodin: кстати, давно спросить хотел - это бага или фича, что дискавери лезет на железяки, у которых не стоит крыжик is managed?

dvolodin #

11:02

бага

11:02

скоро устраню

lexus-omsk #

11:05

ок... это я к тому, что NOC-656 валится только на таких железках... т.е. которые сняты и висят только для истории (конфиг в основном)

freeseacher #

11:08

dvolodin, интерфейс cm_cm я так понимаю переводится будет не скоро да :)

mikevlz|3 #

11:09

freeseacher: переписай :)

11:09

там несложно...

Guest77-ru #

11:11

Может

mikevlz|3 #

11:12

Господа...

11:13

вот есть у меня префикс /11. А надо мне его расширить до /10 - что можно сделать?

freeseacher #

11:13

mikevlz|3, нее. там как раз сложно :)

mikevlz|3 #

11:13

создать такой же, но /10, а старый потом удалить? В нем куча вложенных префиксов поменьше - их автоматом перенесет?

dvolodin #

11:13

lexus-omsk: валится на недоступных?

freeseacher #

11:14

да

11:14

перенест автоматом

dvolodin #

11:14

mikevlz|3: rebase prefix

11:14

если в другое место

freeseacher #

11:14

dvolodin, ребасе поломан.

dvolodin #

11:14

или создать новый и удалить старый

11:14

freeseacher: это как это поломан?

mikevlz|3 #

11:14

не, все там же, vrf не меняется, тем более у нас он один

Guest77-ru #

11:14

Может нафоруме написать для обсуждения маленький драфт по поиску причин проблем в сети? Там удобно будет обсудить. Кроме того там можно было держать эффективные и простые алгоритмы.

freeseacher #

11:14

он не позволяет перенести в тот же vrf

11:15

я вроде даже багу создавал

11:15

мы потом заплатку писали в консоли

11:15

а нее

11:15

не так

11:15

он не позвояелт перенсти в такой же префикс в другом vrf

lexus-omsk #

11:15

dvolodin: есть предположение, что именно на тех, где is_managed не стоит... хотя нужно помониторить ещё, может и на всех недоступных

dvolodin #

11:16

traceback кинь еще аз

freeseacher #

11:16

а нет трейса :)

11:16

вполне себе ошибка через веб обрабатывается

11:16

хотя может ты и lexus-omsk-у отвечал

11:17

Cannot rebase prefix to self

mikevlz|3 #

11:17

сработало, спсб

11:17

удаление

freeseacher #

11:17

перляне есть ?

lexus-omsk #

11:20

dvolodin: http://pastie.org/4655684 - проверил на просто недоступной - тоже падает

dvolodin #

11:27

lexus-omsk: понял, да

11:31

lexus-omsk: http://pastie.org/4655740

11:31

попробуйте патчик с разными поллерами

11:31

на доступных и недоступных хостах

lexus-omsk #

11:32

Спасибо, только, наверное, уже завтра

evyscr #

11:33

freeseacher: где-то на просторах каналов бегали. А что ты от них хочешь?

dvolodin #

11:36

мех и мясо

11:36

:)

evyscr #

11:37

мех мексиканского тушкана и мясо, упакованное в жестяные банки?

freeseacher #

11:40

evyscr, я чегото пропустил. это к чему было ? :)

11:40

про перлян ?

dvolodin #

11:41

да

11:41

что еще от перлян надо, кроме меха и мяса

freeseacher #

11:41

аа. я гетолку делаю для ипама

dvolodin #

11:41

"мексиканский перлян" :)

11:41

уникальный вымирающий вид

freeseacher #

11:42

http://pastie.org/4655795 сильно криво ?

_4ePTeHok #

11:45

эх, наконец-то я добрался до своих json с трапами ежика..

11:46

хех) Sep 9 2011

11:46

почти ровно год прошел)

zi_rus #

11:51

еще подожди

11:51

до выходных

mikevlz|3 #

11:58

обноваился - отвалился noc-probe

11:59

2012-09-03 15:55:27,331 Launching noc-probe[#0]

11:59

2012-09-03 15:55:27,336 Daemon noc-probe[#0] started as PID 43460

11:59

2012-09-03 15:55:28,348 Launching noc-correlator[#0]

11:59

2012-09-03 15:55:28,354 Daemon noc-correlator[#0] started as PID 43461

11:59

2012-09-03 15:55:28,356 noc-probe[#0] daemon is terminated with status 1

11:59

2012-09-03 15:55:29,358 Launching noc-probe[#0]

11:59

2012-09-03 15:55:29,365 Daemon noc-probe[#0] started as PID 43466

11:59

2012-09-03 15:55:30,369 noc-probe[#0] daemon is terminated with status 1

11:59

сменил с poll на kevent - то же самое

_4ePTeHok #

12:01

zi_rus, ну я иссью сделал, пока закоммиттят может и 9е наступит)

mikevlz|3 #

12:09

dvolodin: http://pastebin.com/N4pShm5i

12:09

FreeBSD/select poller, трейс от noc-probe

12:10

логи пухнут

12:11

стоял poll - оно просто падало, kevent -тоже, с селектом работает, но так, что лучше бы уж падало

_4ePTeHok #

12:13

а корреллятор должен давить повторяющиеся ивенты?

12:13

у меня допустим приходят по syslog/snmp одинаковые

12:20

ох уж эти ежики. влючаешь трапы - так оно пока всю историю не вышлет - не успокоится...

mikevlz|3 #

12:34

zi_rus: у тебя бсд же?

zi_rus #

12:35

так получилось

mikevlz|3 #

12:35

какой поллер стоит?

zi_rus #

12:35

кевент

mikevlz|3 #

12:35

а то у меня снесло башню noc-probe демону, причем это не зависит от типа поллера, походу.

zi_rus #

12:35

у меня не жалуется

mikevlz|3 #

12:39

хе

12:39

короче, noc-probe в новой редакции поллера валится, если ему надо снимать стату с железки, которая не существует, или с порта на железке, которого нет.

12:39

раньше пахало :)

zi_rus #

12:50

что? собирал? успешно? :)

12:50

у меня пробе не работает, видимо поэтому и не валится

_4ePTeHok #

12:52

=))

Guest77-ru #

12:53

Вот предлагаю для дальнейшего развития FM обсудить возможные алгоритмы основаные на топологии сети.

12:53

Открыл на форуме тему http://forum.nocproject.org/index.php?topic=136.0

_4ePTeHok #

12:54

ее сначала надо уложить в бд.

12:54

=)

zi_rus #

12:54

+1

Guest77-ru #

12:55

В которой выложил 5 алгоритмов связывающих аварии LinkDown, LinkUp & Ping Faild и поиска причин алгоритмами основаных на топологии сети.

_4ePTeHok #

12:57

"по воле")

zi_rus #

12:57

по волЕ, вычИсляемый

_4ePTeHok #

12:57

=)

12:57

zi_rus, грамарнаци?)

zi_rus #

12:58

почти, я от таких текстов слов начинаю пугаться

12:58

даННый

12:59

получеННого

12:59

отсудствует - это вообще абзац

Guest77-ru #

13:00

Ловите скрипт который уложит все ваши линки в базу: http://pastebin.com/hHkz1JtB

zi_rus #

13:00

Эсли - а про это просто нет слов

_4ePTeHok #

13:00

ыы

Guest77-ru #

13:00

Ну откорректируйте очепятки, я спешил.

zi_rus #

13:01

Эсли?

_4ePTeHok #

13:01

эт сначала надо топо.дот построить и скрипту скормить?

Guest77-ru #

13:02

Да, запускаешь топологи дисковери, потом этот скрипт с /opt/noc/scripts/

13:02

Скрипт можно запускать много раз..

13:04

ладно, меня тут уже выганяют.. Дописывайте свои алгоритмы в туже тему, чтобы они не терялись.

13:05

Там же можно обмениватся своими Alarm Trigers и Event Treegers изменяющими Аварии на основе топологии.

13:06

Ато пишем в чате пишем, а оно теряется и в нужный момент сложно найти..

13:07

Ладно, пока, завтра посмотру ваши алгоритмы для FM на основе топологии.

dvolodin #

13:18

NOC-666

13:18

символичненько

13:18

ежик запустился

13:18

и зло пришло в этот мир :)

_4ePTeHok #

13:26

бгг

13:26

я и не обратил внимание

13:26

символично что ник еще у меня такой в тему)

dvolodin #

13:36

ага

_4ePTeHok #

13:37

кстати существующий Link.json надо править, там имена у ифейсов неполные, цифровые..

13:38

я думаю все нужно сводить к тому виду как на железке выглядит.

dvolodin #

13:41

перетащил version_inventory в noc-discovery

13:41

обживаем scheduler'ы

_4ePTeHok #

13:45

а можно сделать в веб морде где нибудь пункт дискавери, где галками выставлять - что снимать, а что не надо?)