nocproject.org
05:56
dvolodin, вопрос такой, что серьезно нок удаляет события Ping OK/Ping fail через какое-то время?
05:56
при архивации должен
05:56
плохо
05:56
не надо так
05:57
05:57
есть подозрение, что там так не прокатит... или я что-то сломал
05:57
zi_rus: а зачем они, если есть outage report?
05:57
у меня архивация идет раз в неделю, если хочу узнать что было с железкой или вообще сетью еще раньше, то значит не получу всей информации
05:58
lexus-omsk: c[0].time_pattern.match(....)
05:58
прокатит
05:59
dvolodin, outage он покажет что оно падало, а если я открою список ивентов для анализа просто чтобы понять что за чем шло и когда все стало совсем плохо, то у меня не получится
05:59
смотря через какое время
05:59
alarm'ы ты увидишь
06:00
не все ивенты ведут к алармам, но некоторые алармы возможны из-за ивентов
06:00
алармы покажут только алармы
06:00
а когда я открываю список событий и выбираю интересную мне железку
06:01
то получается я вижу что падал роутинг, флапали маки, сдох БП, а то что пинг прерывался я не увижу
06:01
это не логично
06:01
в алармах есть ссылка на ивент, если он еще не зачищен
06:01
если уж было событие что пинг пропадал, пусть оно и останется в истории
06:01
а для незакрытого аларма ивенты не чистятся
06:02
клиент через неделю запросит причину отсутствия сервиса, а я посмотрю и увижу что ничего не вижу
06:02
это да
06:02
такое бывает
06:03
zi_rus: тут просто над отображением надо подумать
06:03
dvolodin, зачем отображение, я просто прошу не удалять из списка ивентов никаких ивентов
06:03
чтобы список был максимально полный
06:04
если вдруг эта информация понадобится
06:04
а алармы пусть как есть показывают только важное
06:04
тут кстати возникает второй вопрос
06:05
Dmitry1, что происходит с ивентом LINEPROTO_DOWN/UP ?
06:05
dvolodin: я немного по-другому обошёл, сейчас так попробую проверить и сделаю патч - надо ведь исправить
06:05
у меня тут была проблема что он падал, но при этом падения линка не происходит
06:06
открываю ивенты, и там тишина
06:06
как-будто тупо дропнули все сообщения
06:09
надо подумать над архивацией
06:11
dvolodin, issue нарисовать?
06:11
лучше конкретное предложение как сделать
06:12
текущий алгоритм -- в fm/periodics/archive.py
06:13
# Drop all events not contributing to alarms
06:13
это как понимать?
06:14
dvolodin, отсавить только
06:14
# Archive other events
06:14
n = 0
06:14
for e in ActiveEvent.objects.filter(timestamp__lte=border):
06:14
e.mark_as_archived("Archived by fm.archive task")
06:14
n += 1
06:14
if n:
06:14
self.info("%d active events are moved into archive" % n)
06:14
зачем дропаются какие-то сообщения
06:16
zi_rus: у меня за день миллион ивентов пролетает. Только пинга там больше половины. Если их копить будет жопа...
06:16
дропаются те классы, которые указано дропать в явной форме
06:16
у меня тоже порядка миллиона event'ов
06:16
это где-то указывается?
06:16
да, regexp'ами по классам
06:17
mikevlz|2, у тебя проблема в другом месте
06:17
dvolodin, совсем не кошерный вариант
06:17
надо бы приложение где это галочками отмечается
06:18
dvolodin, я бы не хотел никакие сообщения дропать, что и где надо для этого указать
06:18
там в конфиге время жизни
06:19
zi_rus: ты же знаешь мое предложение :)
06:19
дерево в три колонки
06:19
в каком конфиге? вот и в конфиги полезли
06:20
название класса, галочку -- дропать сразу, и поле - время жизни в архиве
06:20
dvolodin, не знаю, или не помню
06:20
и что мешает? где оно?
06:20
ты его еще не написал :)
06:21
можно, кстати, и без дерева
06:21
просто grid
06:25
dvolodin, но сейчас он дропает пинг ок и без этого приложения, я прошу прекратить сие безобразие
06:30
# Drop all events not contributing to alarms
06:30
dc = ActiveEvent.objects.filter(alarms__exists=False,
06:30
timestamp__lte=border).count()
06:30
if dc:
06:30
ActiveEvent.objects.filter(alarms__exists=False,
06:30
timestamp__lte=border).delete()
06:30
self.info("%d active events cleaned (no related alarms)" % dc)
06:30
вот это закомментируй
06:30
пока ничего другого не сделали
06:44
mikevlz|2, лучше бы интерфейсы скрыл на скринфоте, картинка будет наглядней
06:44
не, в том и приколь, что мне важно знать, как пойдет путь. Я не верю в STP =)
06:45
mikevlz|2, тогда я не понимаю что значит эта картинка
06:46
путь между железками с авторасположением нод. Иначе будет столбик в котором хер что разберешь
06:46
mikevlz|2: кстати, тебе не пути надо искать
06:46
плюс список путей, которые будут подсвечиваться цветом
06:46
а дуги, удовлетворяющие условию
06:46
через одну дугу может проходить много путей
06:47
dvolodin: я не настоящий сварщик, я взял маску поносить
06:48
в комбобоксе Path - пути, в качестве данных у каждого элемента комбобокса - список ID линков
06:48
для данного пути
06:48
так что я знаю ребра, по которым идет каждый путь, если ты об этом
06:53
mikevlz|2, путь через mpls облако не рассчитаешь?
06:57
mikevlz|2: аццкий сотона - почти пентаграмму нарисовал
07:04
lexus-omsk: это все mxGraph! я тут непричем, я просто разместил объяву
07:04
zi_rus: если в базе линки через твое облако есть - рассчитает.
07:05
или я не понимаю вопроса :)
07:05
mikevlz|2, л2 сегмент, vfi , л2 сегмент
07:06
чтобы он мог связять
07:07
сервис через облако
07:07
а не только тупо влан проключить
07:09
zi_rus: алгоритм расчета такой: выгружаются физические линки из базы НОК в граф. Дальше по графу ищутся все кратчайшие пути между начальным узлом и конечным, эти пути выгружаются в график. Если НОК не знает о физическом линке между двумя узлами = не буде
07:09
т пути. А если знает - то надо будет научить определять что там - л2 или облако, в соответствии с этим влан кидать или метки какие вешать
07:09
mikevlz|2, надо нок научить определять наличие мплс
07:09
и адекватно реагировать
07:10
у меня на сейчас единственная железка, знающая про Mpls - смартэдж. Может еще Brocade RX умеет что-то но мы этим не пользуемся, малы для этого и железок мало
07:11
выкачу - допишешь :)
08:22
zi_rus: интерфейсы позволяют выявлять MPLS'ные интерфейсы :)
08:22
по family MPLS на сабе
08:22
так что вопросы к реализации get_interfaces
08:22
эк ты лихо отмазался
08:23
а вот что нужно -- это интерфейс для выцарапывания LSP
08:24
как минимум - lsp
08:24
xconnect это все-таки совсем уж кисковская приблуда
08:24
для ущербных линейных карт
08:29
ну почему, на жуниперах тоже есть
08:29
ccc вроде называется
08:36
dvolodin а как удалить все линки сделанные руками ?
08:37
ufir: у линка есть поле "метод", у ручных он будет пустой
08:40
mikevlz|2, а у меня у двух он пустой
08:41
Method Count
08:41
337
08:41
stp 297
08:41
udld 62
08:41
24
08:41
mac 17
08:41
rep 13
08:41
750
08:42
zi_rus: возможно, один из них None, а другой пустой =)
08:42
один - ручные линки до введения поля mothod, другой - после
08:42
странно
08:43
я не делел столько линков руками
08:43
вернее раньше делал, возможно даже и столько, но потом базу интерфейсов пришлось дропнуть и эти линки канули в лету
08:43
не было поля - неизвестен метод
08:44
метод стал "хз что, считаем, что путо"
08:44
то есть туда и стпшные попали
08:44
так бы сразу и сказал
08:44
те. что были до введения поля - все туда попали
08:44
Dmitry1, что происходит с ивентом LINEPROTO_DOWN/UP?
08:45
вместо него используется line up/down
08:46
Dmitry1, line proto может падать а линк стоять
08:46
это проблема
08:46
нельзя игнорить
08:46
его коррелировать надо
08:47
а генерировать аларм можно с root-cause
08:47
поднимать аларм по lineproto
08:47
потом если приходит link down
08:47
то под него загонять
08:47
а для закрытия аларма у нас такого, как "root-cause" нету
08:48
Dmitry1, есть такой демон, noc-correlator, если не ошибаюсь это его работа
08:48
нужно только правило
08:48
я тебе сказал как их можно обрабатывать
08:48
закроется аларм по lineproto-up
08:49
А куда девать ивент link-up ?
08:49
Mar 11 09:26:33: %LINEPROTO-5-UPDOWN: Line protocol on Interface FastEthernet0/3, changed state to down
08:49
Mar 11 09:26:34: %LINK-3-UPDOWN: Interface FastEthernet0/3, changed state to down
08:49
Mar 11 09:26:36: %LINK-3-UPDOWN: Interface FastEthernet0/3, changed state to up
08:49
Mar 11 09:26:37: %LINEPROTO-5-UPDOWN: Line protocol on Interface FastEthernet0/3, changed state to up
08:49
сначала поднимается линк
08:49
потом протокол
08:50
На первые два я могу сделать root-cause
08:50
на вторые два - не могу
08:52
Если я закрою аларм по LINEPROTO-5-UPDOWN, то куда мне девать ивент LINK-3-UPDOWN ?
08:52
да не закроешь ты его
08:52
у тебя падает протокол
08:53
поднимаешь про это аларм
08:53
падает линк, аларм про протокол под аларм про линк засовываешь
08:53
поднимается линк, остается протокол
08:53
поднимается протокол
08:54
без линка не будет протокола
08:54
LINK-3-UPDOWN модет существовать отдельно от LINEPROTO-5-UPDOWN, как и наоборот
08:54
нет
08:55
падение линка всегда ведет к падению протокола
08:55
Mar 12 12:50:57: %LINK-3-UPDOWN: Interface Multilink1, changed state to down
08:55
Mar 12 12:50:58: %LINEPROTO-5-UPDOWN: Line protocol on Interface Serial1/2:0, changed state to down
08:55
Mar 12 12:50:58: %LINEPROTO-5-UPDOWN: Line protocol on Interface Serial2/0:0, changed state to down
08:55
Mar 12 12:50:58: %LINEPROTO-5-UPDOWN: Line protocol on Interface Multilink1, changed state to down
08:55
Mar 12 12:51:38: %LINK-3-UPDOWN: Interface Multilink1, changed state to up
08:55
Mar 12 12:51:39: %LINEPROTO-5-UPDOWN: Line protocol on Interface Serial2/0:0, changed state to up
08:55
Mar 12 12:51:39: %LINEPROTO-5-UPDOWN: Line protocol on Interface Serial1/2:0, changed state to up
08:55
Mar 12 12:51:39: %LINEPROTO-5-UPDOWN: Line protocol on Interface Multilink1, changed state to up
08:56
Это частные случаи
08:56
В идеале
08:56
для LINEPROTO-5-UPDOWN root-cause LINK-3-UPDOWN
08:56
да
08:56
если пришел линк даун
08:57
а на поднятие - наоборот
08:57
если не пришел то он таки остается
08:57
Dmitry1, куда наоборот
08:58
Сделать так, чтобы на снятие аларма тоже можно было какие-то root-cause делать
08:58
ты root-cause закрываешь и смотришь что под ним было чтобы тоже закрыть
08:58
На открытие будет много лишнего мусора
08:58
нельзя алармы которые под рутом, закрывать вместе с рутом
08:58
А должно быть одно сообщение
08:59
Смотри на счет всяких err-disabled
08:59
Там оно тоже линки и протоколы дергает
08:59
и что, нет закрывающих сообщений?
08:59
У нас получится LINEPROTO-5-UPDOWN без открывающего аларма
09:00
что значит без
09:00
он есть
09:00
только под рутом
09:02
dvolodin, кто дурак?
09:06
Смотри
09:06
%PM-4-ERR_DISABLE: loopback error detected on Gi4/1, putting Gi4/1 in err-disable state
09:06
%LINEPROTO-5-UPDOWN: Line protocol on Interface Gi4/1, changed state to down
09:06
%PM-4-ERR_RECOVER: Attempting to recover from loopback err-disable state on Fa0/24
09:07
%LINEPROTO-5-UPDOWN: Line protocol on Interface Gi4/1, changed state to up
09:07
В третей строчке интерфейс должен быть Gi4/1
09:07
ты ересь какую-то скопировал
09:08
какой-то левый интерфейс
09:08
Сейчас я игнорирую LINEPROTO-5-UPDOWN, а смотрю только PM-4-ERR_DISABLE и PM-4-ERR_RECOVER
09:09
Dmitry1 ну и как ты по падению 4/1 и поднятию 0/24 что-то видишь
09:09
line-proto везде правильные
09:09
а errdisable херню какую-то написал
09:10
так сойдет?
09:10
%PM-4-ERR_DISABLE: loopback error detected on Gi4/1, putting Gi4/1 in err-disable state
09:10
%LINEPROTO-5-UPDOWN: Line protocol on Interface Gi4/1, changed state to down
09:10
%PM-4-ERR_RECOVER: Attempting to recover from loopback err-disable state on Gi4/1
09:10
%LINEPROTO-5-UPDOWN: Line protocol on Interface Gi4/1, changed state to up
09:11
то есть ты еще и на ходу их правишь
09:11
что тут не так
09:11
да. с примеров FM правил дергаю
09:11
ты по %LINEPROTO-5-UPDOWN: Line protocol on Interface Gi4/1, changed state to down поднимаешь аларм
09:11
второй аларм
09:12
и сразу же его под root cause
09:12
за крывается root cause
09:12
По %LINEPROTO-5-UPDOWN: Line protocol on Interface Gi4/1, changed state to up ?
09:12
да
09:12
остается только lineproto
09:12
А куда делось %PM-4-ERR_RECOVER: Attempting to recover from loopback err-disable state on Gi4/1 ?
09:12
его закрываешь по соотв сообщению
09:13
оно закрыло %PM-4-ERR_DISABLE
09:13
как %LINEPROTO-5-UPDOWN: Line protocol on Interface Gi4/1, changed state to up закроет %PM-4-ERR_DISABLE: loopback error detected on Gi4/1, putting Gi4/1 in err-disable state ?
09:13
возьми в руки матрешку
09:14
его закроет %PM-4-ERR_RECOVER
09:14
у тебя все алармы и открываются и закрываются
09:14
только некоторые находятся внутри других
09:14
а ползователю показывается верхний
09:14
который root cause
09:15
если у тебя падает железка - это root cause для падения всех остальных железок которые в сети за упавшей
09:15
но
09:16
нельзя закрывать падение всех только поднятием cause
09:16
должно быть подтверждение по каждому
09:16
если рут коз закрылся, значит алармы разворачиваются
09:16
и закрываются самостоятельно
09:18
у тебя есть линк, на линке роутинг, зап линком 100500 миллионов железок
09:18
падает линк
09:18
и у тебя остается куча аварий
09:18
пинги упали
09:18
линки пали
09:18
роутинг упал
09:18
рут коз - падение линка
09:18
линк поднялся
09:19
остался рут коз - нет роутинга
09:19
поднялся оспф
09:19
остались только пинг файлед
09:19
которые по одному сами закрываются
09:20
Dmitry1, мне повторить?
10:26
кто что думает по поводу очеловечивания NOC, например отображать в grid лого вендора/дистриба линукса
10:26
и еще shape
10:26
в виде картинки
10:27
человеку проще работать со списком, если есть графические подсказки
10:27
и стиля немного добавляет
10:27
а то сейчас это продвинутый excel
10:38
=)
10:46
зато хороший эксель
10:47
конфиги сохраняет, днс ведет
10:48
где одна таблица сменяет другую
13:48
подскажите на железке get_interfaces проходит номально, а в inventory - interfaces ничего не показывает
13:48
как задебажить?
14:16
уже нашел - был выключен дискавери
16:55
у кого не захочет вдруг по какой-то причине запускаться активатор(точнее запускаться будет, но подключиться к SAE не сможет, в логах видно, что дальше коннекта дело не идет) - пробуйте в постгресе чистить sa_maptask, после этого все взлетает
Share this page
Share this page: