About Forum Blogs NOC Docs Downloads KB Issues Code CI Registration

nocproject.org

#nocproject.org at irc.freenode.net log.
Back to nocproject.org Back to IRC log index
Date: 13.03.2013
zi_rus #
05:56
dvolodin, вопрос такой, что серьезно нок удаляет события Ping OK/Ping fail через какое-то время?
dvolodin #
05:56
при архивации должен
zi_rus #
05:56
плохо
05:56
не надо так
lexus-omsk #
05:57
dvolodin: ай нид ё хелп :) http://dpaste.org/uu0nH/
05:57
есть подозрение, что там так не прокатит... или я что-то сломал
dvolodin #
05:57
zi_rus: а зачем они, если есть outage report?
zi_rus #
05:57
у меня архивация идет раз в неделю, если хочу узнать что было с железкой или вообще сетью еще раньше, то значит не получу всей информации
dvolodin #
05:58
lexus-omsk: c[0].time_pattern.match(....)
05:58
прокатит
zi_rus #
05:59
dvolodin, outage он покажет что оно падало, а если я открою список ивентов для анализа просто чтобы понять что за чем шло и когда все стало совсем плохо, то у меня не получится
dvolodin #
05:59
смотря через какое время
05:59
alarm'ы ты увидишь
zi_rus #
06:00
не все ивенты ведут к алармам, но некоторые алармы возможны из-за ивентов
06:00
алармы покажут только алармы
06:00
а когда я открываю список событий и выбираю интересную мне железку
06:01
то получается я вижу что падал роутинг, флапали маки, сдох БП, а то что пинг прерывался я не увижу
06:01
это не логично
mikevlz|2 #
06:01
в алармах есть ссылка на ивент, если он еще не зачищен
zi_rus #
06:01
если уж было событие что пинг пропадал, пусть оно и останется в истории
mikevlz|2 #
06:01
а для незакрытого аларма ивенты не чистятся
zi_rus #
06:02
клиент через неделю запросит причину отсутствия сервиса, а я посмотрю и увижу что ничего не вижу
mikevlz|2 #
06:02
это да
06:02
такое бывает
dvolodin #
06:03
zi_rus: тут просто над отображением надо подумать
zi_rus #
06:03
dvolodin, зачем отображение, я просто прошу не удалять из списка ивентов никаких ивентов
06:03
чтобы список был максимально полный
06:04
если вдруг эта информация понадобится
06:04
а алармы пусть как есть показывают только важное
06:04
тут кстати возникает второй вопрос
06:05
Dmitry1, что происходит с ивентом LINEPROTO_DOWN/UP ?
lexus-omsk #
06:05
dvolodin: я немного по-другому обошёл, сейчас так попробую проверить и сделаю патч - надо ведь исправить
zi_rus #
06:05
у меня тут была проблема что он падал, но при этом падения линка не происходит
06:06
открываю ивенты, и там тишина
06:06
как-будто тупо дропнули все сообщения
dvolodin #
06:09
надо подумать над архивацией
zi_rus #
06:11
dvolodin, issue нарисовать?
dvolodin #
06:11
лучше конкретное предложение как сделать
06:12
текущий алгоритм -- в fm/periodics/archive.py
zi_rus #
06:13
# Drop all events not contributing to alarms
06:13
это как понимать?
06:14
dvolodin, отсавить только
06:14
# Archive other events
06:14
n = 0
06:14
for e in ActiveEvent.objects.filter(timestamp__lte=border):
06:14
e.mark_as_archived("Archived by fm.archive task")
06:14
n += 1
06:14
if n:
06:14
self.info("%d active events are moved into archive" % n)
06:14
зачем дропаются какие-то сообщения
mikevlz|2 #
06:16
zi_rus: у меня за день миллион ивентов пролетает. Только пинга там больше половины. Если их копить будет жопа...
dvolodin #
06:16
дропаются те классы, которые указано дропать в явной форме
06:16
у меня тоже порядка миллиона event'ов
zi_rus #
06:16
это где-то указывается?
dvolodin #
06:16
да, regexp'ами по классам
zi_rus #
06:17
mikevlz|2, у тебя проблема в другом месте
06:17
dvolodin, совсем не кошерный вариант
06:17
надо бы приложение где это галочками отмечается
06:18
dvolodin, я бы не хотел никакие сообщения дропать, что и где надо для этого указать
dvolodin #
06:18
там в конфиге время жизни
06:19
zi_rus: ты же знаешь мое предложение :)
06:19
дерево в три колонки
zi_rus #
06:19
в каком конфиге? вот и в конфиги полезли
dvolodin #
06:20
название класса, галочку -- дропать сразу, и поле - время жизни в архиве
zi_rus #
06:20
dvolodin, не знаю, или не помню
06:20
и что мешает? где оно?
dvolodin #
06:20
ты его еще не написал :)
06:21
можно, кстати, и без дерева
06:21
просто grid
zi_rus #
06:25
dvolodin, но сейчас он дропает пинг ок и без этого приложения, я прошу прекратить сие безобразие
dvolodin #
06:30
# Drop all events not contributing to alarms
06:30
dc = ActiveEvent.objects.filter(alarms__exists=False,
06:30
timestamp__lte=border).count()
06:30
if dc:
06:30
ActiveEvent.objects.filter(alarms__exists=False,
06:30
timestamp__lte=border).delete()
06:30
self.info("%d active events cleaned (no related alarms)" % dc)
06:30
вот это закомментируй
06:30
пока ничего другого не сделали
zi_rus #
06:34
ок
mikevlz|2 #
06:43
http://kb.nocproject.org/pages/viewpage.action?pageId=7766325&focusedCommentId=7766331#comment-7766331 =)
zi_rus #
06:44
mikevlz|2, лучше бы интерфейсы скрыл на скринфоте, картинка будет наглядней
mikevlz|2 #
06:44
не, в том и приколь, что мне важно знать, как пойдет путь. Я не верю в STP =)
zi_rus #
06:45
mikevlz|2, тогда я не понимаю что значит эта картинка
mikevlz|2 #
06:46
путь между железками с авторасположением нод. Иначе будет столбик в котором хер что разберешь
dvolodin #
06:46
mikevlz|2: кстати, тебе не пути надо искать
mikevlz|2 #
06:46
плюс список путей, которые будут подсвечиваться цветом
dvolodin #
06:46
а дуги, удовлетворяющие условию
06:46
через одну дугу может проходить много путей
mikevlz|2 #
06:47
dvolodin: я не настоящий сварщик, я взял маску поносить
dvolodin #
06:47
нормально все
mikevlz|2 #
06:48
в комбобоксе Path - пути, в качестве данных у каждого элемента комбобокса - список ID линков
06:48
для данного пути
06:48
так что я знаю ребра, по которым идет каждый путь, если ты об этом
zi_rus #
06:53
mikevlz|2, путь через mpls облако не рассчитаешь?
lexus-omsk #
06:57
mikevlz|2: аццкий сотона - почти пентаграмму нарисовал
mikevlz|2 #
07:04
lexus-omsk: это все mxGraph! я тут непричем, я просто разместил объяву
07:04
zi_rus: если в базе линки через твое облако есть - рассчитает.
07:05
или я не понимаю вопроса :)
zi_rus #
07:05
mikevlz|2, л2 сегмент, vfi , л2 сегмент
07:06
чтобы он мог связять
07:07
сервис через облако
07:07
а не только тупо влан проключить
mikevlz|2 #
07:09
zi_rus: алгоритм расчета такой: выгружаются физические линки из базы НОК в граф. Дальше по графу ищутся все кратчайшие пути между начальным узлом и конечным, эти пути выгружаются в график. Если НОК не знает о физическом линке между двумя узлами = не буде
07:09
т пути. А если знает - то надо будет научить определять что там - л2 или облако, в соответствии с этим влан кидать или метки какие вешать
zi_rus #
07:09
mikevlz|2, надо нок научить определять наличие мплс
07:09
и адекватно реагировать
mikevlz|2 #
07:10
у меня на сейчас единственная железка, знающая про Mpls - смартэдж. Может еще Brocade RX умеет что-то но мы этим не пользуемся, малы для этого и железок мало
07:11
выкачу - допишешь :)
dvolodin #
08:22
zi_rus: интерфейсы позволяют выявлять MPLS'ные интерфейсы :)
ufir #
08:22
как ?
dvolodin #
08:22
по family MPLS на сабе
ufir #
08:22
а, точно ж
dvolodin #
08:22
так что вопросы к реализации get_interfaces
ufir #
08:22
эк ты лихо отмазался
zi_rus #
08:23
да уж
dvolodin #
08:23
а вот что нужно -- это интерфейс для выцарапывания LSP
zi_rus #
08:23
lsp или все же vc
dvolodin #
08:24
как минимум - lsp
08:24
xconnect это все-таки совсем уж кисковская приблуда
08:24
для ущербных линейных карт
ufir #
08:29
ну почему, на жуниперах тоже есть
08:29
ccc вроде называется
acid232 #
08:29
утро
dvolodin #
08:30
ну да
ufir #
08:36
dvolodin а как удалить все линки сделанные руками ?
mikevlz|2 #
08:37
ufir: у линка есть поле "метод", у ручных он будет пустой
zi_rus #
08:40
mikevlz|2, а у меня у двух он пустой
08:41
Method Count
08:41
337
08:41
stp 297
08:41
udld 62
08:41
24
08:41
mac 17
08:41
rep 13
08:41
750
mikevlz|2 #
08:42
zi_rus: возможно, один из них None, а другой пустой =)
zi_rus #
08:42
и в чем разница
mikevlz|2 #
08:42
один - ручные линки до введения поля mothod, другой - после
zi_rus #
08:42
странно
08:43
я не делел столько линков руками
08:43
вернее раньше делал, возможно даже и столько, но потом базу интерфейсов пришлось дропнуть и эти линки канули в лету
mikevlz|2 #
08:43
не было поля - неизвестен метод
08:44
метод стал "хз что, считаем, что путо"
zi_rus #
08:44
то есть туда и стпшные попали
mikevlz|2 #
08:44
да
zi_rus #
08:44
так бы сразу и сказал
mikevlz|2 #
08:44
те. что были до введения поля - все туда попали
zi_rus #
08:44
Dmitry1, что происходит с ивентом LINEPROTO_DOWN/UP?
Dmitry1 #
08:45
вроде он игнорится
zi_rus #
08:45
зачем?
Dmitry1 #
08:45
вместо него используется line up/down
zi_rus #
08:46
Dmitry1, line proto может падать а линк стоять
08:46
это проблема
08:46
нельзя игнорить
Dmitry1 #
08:46
знаю
zi_rus #
08:46
его коррелировать надо
Dmitry1 #
08:46
но обычно так
zi_rus #
08:46
с падением линка
Dmitry1 #
08:47
а генерировать аларм можно с root-cause
zi_rus #
08:47
поднимать аларм по lineproto
08:47
потом если приходит link down
08:47
то под него загонять
Dmitry1 #
08:47
а для закрытия аларма у нас такого, как "root-cause" нету
zi_rus #
08:48
Dmitry1, есть такой демон, noc-correlator, если не ошибаюсь это его работа
08:48
нужно только правило
08:48
я тебе сказал как их можно обрабатывать
Dmitry1 #
08:48
закроется аларм по lineproto-up
08:49
А куда девать ивент link-up ?
zi_rus #
08:49
Mar 11 09:26:33: %LINEPROTO-5-UPDOWN: Line protocol on Interface FastEthernet0/3, changed state to down
08:49
Mar 11 09:26:34: %LINK-3-UPDOWN: Interface FastEthernet0/3, changed state to down
08:49
Mar 11 09:26:36: %LINK-3-UPDOWN: Interface FastEthernet0/3, changed state to up
08:49
Mar 11 09:26:37: %LINEPROTO-5-UPDOWN: Line protocol on Interface FastEthernet0/3, changed state to up
08:49
сначала поднимается линк
08:49
потом протокол
Dmitry1 #
08:50
На первые два я могу сделать root-cause
08:50
на вторые два - не могу
zi_rus #
08:51
why
Dmitry1 #
08:52
Если я закрою аларм по LINEPROTO-5-UPDOWN, то куда мне девать ивент LINK-3-UPDOWN ?
zi_rus #
08:52
да не закроешь ты его
08:52
у тебя падает протокол
08:53
поднимаешь про это аларм
08:53
падает линк, аларм про протокол под аларм про линк засовываешь
08:53
поднимается линк, остается протокол
08:53
поднимается протокол
Dmitry1 #
08:54
не-не
zi_rus #
08:54
без линка не будет протокола
Dmitry1 #
08:54
LINK-3-UPDOWN модет существовать отдельно от LINEPROTO-5-UPDOWN, как и наоборот
zi_rus #
08:54
нет
08:55
падение линка всегда ведет к падению протокола
08:55
Mar 12 12:50:57: %LINK-3-UPDOWN: Interface Multilink1, changed state to down
08:55
Mar 12 12:50:58: %LINEPROTO-5-UPDOWN: Line protocol on Interface Serial1/2:0, changed state to down
08:55
Mar 12 12:50:58: %LINEPROTO-5-UPDOWN: Line protocol on Interface Serial2/0:0, changed state to down
08:55
Mar 12 12:50:58: %LINEPROTO-5-UPDOWN: Line protocol on Interface Multilink1, changed state to down
08:55
Mar 12 12:51:38: %LINK-3-UPDOWN: Interface Multilink1, changed state to up
08:55
Mar 12 12:51:39: %LINEPROTO-5-UPDOWN: Line protocol on Interface Serial2/0:0, changed state to up
08:55
Mar 12 12:51:39: %LINEPROTO-5-UPDOWN: Line protocol on Interface Serial1/2:0, changed state to up
08:55
Mar 12 12:51:39: %LINEPROTO-5-UPDOWN: Line protocol on Interface Multilink1, changed state to up
Dmitry1 #
08:56
Это частные случаи
08:56
В идеале
08:56
для LINEPROTO-5-UPDOWN root-cause LINK-3-UPDOWN
zi_rus #
08:56
да
08:56
если пришел линк даун
Dmitry1 #
08:57
а на поднятие - наоборот
zi_rus #
08:57
если не пришел то он таки остается
08:57
Dmitry1, куда наоборот
Dmitry1 #
08:58
Сделать так, чтобы на снятие аларма тоже можно было какие-то root-cause делать
zi_rus #
08:58
ты root-cause закрываешь и смотришь что под ним было чтобы тоже закрыть
Dmitry1 #
08:58
На открытие будет много лишнего мусора
zi_rus #
08:58
нельзя алармы которые под рутом, закрывать вместе с рутом
Dmitry1 #
08:58
А должно быть одно сообщение
08:59
Смотри на счет всяких err-disabled
zi_rus #
08:59
и что там
Dmitry1 #
08:59
Там оно тоже линки и протоколы дергает
zi_rus #
08:59
и что, нет закрывающих сообщений?
Dmitry1 #
08:59
У нас получится LINEPROTO-5-UPDOWN без открывающего аларма
zi_rus #
09:00
что значит без
09:00
он есть
09:00
только под рутом
09:02
dvolodin, кто дурак?
Dmitry1 #
09:06
Смотри
09:06
%PM-4-ERR_DISABLE: loopback error detected on Gi4/1, putting Gi4/1 in err-disable state
09:06
%LINEPROTO-5-UPDOWN: Line protocol on Interface Gi4/1, changed state to down
09:06
%PM-4-ERR_RECOVER: Attempting to recover from loopback err-disable state on Fa0/24
09:07
%LINEPROTO-5-UPDOWN: Line protocol on Interface Gi4/1, changed state to up
09:07
В третей строчке интерфейс должен быть Gi4/1
zi_rus #
09:07
ты ересь какую-то скопировал
09:08
какой-то левый интерфейс
Dmitry1 #
09:08
Сейчас я игнорирую LINEPROTO-5-UPDOWN, а смотрю только PM-4-ERR_DISABLE и PM-4-ERR_RECOVER
zi_rus #
09:09
Dmitry1 ну и как ты по падению 4/1 и поднятию 0/24 что-то видишь
09:09
line-proto везде правильные
09:09
а errdisable херню какую-то написал
Dmitry1 #
09:10
так сойдет?
09:10
%PM-4-ERR_DISABLE: loopback error detected on Gi4/1, putting Gi4/1 in err-disable state
09:10
%LINEPROTO-5-UPDOWN: Line protocol on Interface Gi4/1, changed state to down
09:10
%PM-4-ERR_RECOVER: Attempting to recover from loopback err-disable state on Gi4/1
09:10
%LINEPROTO-5-UPDOWN: Line protocol on Interface Gi4/1, changed state to up
zi_rus #
09:11
то есть ты еще и на ходу их правишь
09:11
что тут не так
Dmitry1 #
09:11
да. с примеров FM правил дергаю
zi_rus #
09:11
ты по %LINEPROTO-5-UPDOWN: Line protocol on Interface Gi4/1, changed state to down поднимаешь аларм
09:11
второй аларм
09:12
и сразу же его под root cause
Dmitry1 #
09:12
А снять аларм как?
zi_rus #
09:12
за крывается root cause
Dmitry1 #
09:12
По %LINEPROTO-5-UPDOWN: Line protocol on Interface Gi4/1, changed state to up ?
zi_rus #
09:12
да
09:12
остается только lineproto
Dmitry1 #
09:12
А куда делось %PM-4-ERR_RECOVER: Attempting to recover from loopback err-disable state on Gi4/1 ?
zi_rus #
09:12
его закрываешь по соотв сообщению
09:13
оно закрыло %PM-4-ERR_DISABLE
Dmitry1 #
09:13
как %LINEPROTO-5-UPDOWN: Line protocol on Interface Gi4/1, changed state to up закроет %PM-4-ERR_DISABLE: loopback error detected on Gi4/1, putting Gi4/1 in err-disable state ?
zi_rus #
09:13
возьми в руки матрешку
09:14
его закроет %PM-4-ERR_RECOVER
09:14
у тебя все алармы и открываются и закрываются
09:14
только некоторые находятся внутри других
09:14
а ползователю показывается верхний
09:14
который root cause
09:15
если у тебя падает железка - это root cause для падения всех остальных железок которые в сети за упавшей
09:15
но
09:16
нельзя закрывать падение всех только поднятием cause
09:16
должно быть подтверждение по каждому
09:16
если рут коз закрылся, значит алармы разворачиваются
09:16
и закрываются самостоятельно
09:18
у тебя есть линк, на линке роутинг, зап линком 100500 миллионов железок
09:18
падает линк
09:18
и у тебя остается куча аварий
09:18
пинги упали
09:18
линки пали
09:18
роутинг упал
09:18
рут коз - падение линка
09:18
линк поднялся
09:19
остался рут коз - нет роутинга
09:19
поднялся оспф
09:19
остались только пинг файлед
09:19
которые по одному сами закрываются
09:20
Dmitry1, мне повторить?
Dmitry1 #
09:24
подумаю
zi_rus #
10:26
кто что думает по поводу очеловечивания NOC, например отображать в grid лого вендора/дистриба линукса
10:26
и еще shape
10:26
в виде картинки
10:27
человеку проще работать со списком, если есть графические подсказки
10:27
и стиля немного добавляет
10:27
а то сейчас это продвинутый excel
mikevlz|2 #
10:38
=)
10:46
зато хороший эксель
10:47
конфиги сохраняет, днс ведет
zi_rus #
10:48
где одна таблица сменяет другую
Kostua #
13:48
подскажите на железке get_interfaces проходит номально, а в inventory - interfaces ничего не показывает
13:48
как задебажить?
14:16
уже нашел - был выключен дискавери
mikevlz|2 #
16:55
у кого не захочет вдруг по какой-то причине запускаться активатор(точнее запускаться будет, но подключиться к SAE не сможет, в логах видно, что дальше коннекта дело не идет) - пробуйте в постгресе чистить sa_maptask, после этого все взлетает
Tweet
Share this page
Share this page: Tweet