About Forum Blogs NOC Docs Downloads KB Issues Code CI Registration

nocproject.org

#nocproject.org at irc.freenode.net log.
Back to nocproject.org Back to IRC log index
Date: 22.12.2014
lexus-omsk #
04:45
freeseacher, спасибо, заработала kb
05:18
упс... кажись не ту ветку закрыл - хотел в своём repo, а получилось - develop
06:35
dvolodin heelep! Пытался свой pull-request замержить а вмеcто этого закрыл develop... можно починить обратно?
zi_rus_ #
06:38
lexus-omsk, баловник
06:38
:)
lexus-omsk #
06:38
крыжик назывался close source branch, что никак не ассоциировалось у меня с develop в общем репо
dvolodin #
06:40
он при следующем коммите дожен переоткрыться
06:41
https://www.evernote.com/l/ADnjFW72gGFBt4uGlsm8OErLO3UC30oz14U
06:41
вот, очередные заметки на полях шляпы
mpanait #
06:51
.
dvolodin #
06:53
lexus-omsk: ну да, ему пофиг, где его закрывать
zi_rus_ #
06:56
dvolodin, у меня вопрос, почему ты аларм сделал уровня критикал по dying gasp?
dvolodin #
06:56
ну так оно подохло
zi_rus_ #
06:57
как тебе сказать, я тут предлагал другую идеологию
06:57
народ вроде согласился
06:57
подохло это уровень MAJOR
e_zombie #
06:57
,,
zi_rus_ #
06:57
если может подохнуть, то MINOR
06:58
падение протоколов - это WARNING
06:58
всякий мусор типа конфилкта адресов или макфлапов - ШТАЩ
06:58
INFO
06:59
dvolodin, в критикал предполагается совать только если подохла большая железка и утащила за собой много всего остального
dvolodin #
07:00
может быть, да
07:00
на самом деле ревизию нужно провести alarmclass'ов
xetle #
07:02
Когда-то давно, на форуме, был топик с алгоритмами для FM.
07:03
Преимущественно основаных на анализе топологии сети как графа.
07:04
Есть возможность во множестве аварий определять кореневую или сортировать более точно аварии.
zi_rus_ #
07:04
dvolodin, ну я частично просмотрел NOC-1490
xetle #
07:10
Для снижения нагрузки FM при обработки аварий, предлагается создать дополнительное поле в sa_managedobjects где хранить данные касающиеся объекта в сетевой топологии, например:
07:12
список путей от объекта к ядру сети или шлюзу, прочие требующие значительных вычеслительных ресурсов.
07:12
Данные обновлять переодически после дискавери топологии.
dvolodin #
07:12
xetle: там и так есть два поля нужных
xetle #
07:13
Какие?
dvolodin #
07:13
termination_group и service_terminator
xetle #
07:14
А да пропустил, надо ещё путь (маршрут) к этому брасу хранить, ибо его вичесление ресурсоёмко.
07:15
Потом написать хендлеры, они не должны сильно грузить FM ибо ресурсоёмкие вычисления делаем переодически и готовый результат храним в базе.
07:17
Вот задача этих хендлеров определять приоритет, возможно изменят его и определять кореневые аварии..
07:17
В списке журнала в идеале должны быть только правильноотсортированные кореневые аварии.
dvolodin #
07:18
оно так и есть
07:18
я вот что думаю
xetle #
07:18
Раскрыв кореневую аварию, причину, увидем все связные с ней аварии..
dvolodin #
07:18
xetle: это есть все
07:18
тут явно нужно поиграться со склейкой ping failed + ping failed и ping failed + link down
xetle #
07:19
хендлеров нет... их должно быть много.......
dvolodin #
07:19
много - понятие более чем относительное
07:19
собственно вот что нужно
07:20
для каждой железки нужна ссылка на единственную железку, которая связывает ее с ядром сети
07:20
если она есть, конечно
zi_rus_ #
07:20
ядро понятие растяжимое
dvolodin #
07:20
причем с указанием интерфейса
07:20
zi_rus_: я знаю
buggy-funhouse #
07:21
Приветы
dvolodin #
07:21
нужна табличка вида
07:21
managed object, root object, root object's interface
zi_rus_ #
07:21
нужно л2 и л3 топологию учитывать
dvolodin #
07:21
zi_rus_: не нужно, не будет такое работать
buggy-funhouse #
07:21
Если звезда, то всё просто, а если нет..
zi_rus_ #
07:21
да, наверное не нужно
dvolodin #
07:21
тут правила заполнения вот такие вот
07:22
если одна железка упирается в другую строго в один интерфейс - пишется в базу обе железки и интерфейс на корневой железки, от которой эта железка зависит
07:22
если она упирается ему в два и более интерфейса -- пишется только железка
07:22
без интерфейса
zi_rus_ #
07:23
кольца свичей у нас приходят на две разных РЕ
dvolodin #
07:23
тогда ping failed + ping failed коррелируются тривиально -- просто уводим одну аварию под другую по таблице связей
07:23
zi_rus_: в таком случае у тебя нет единственной железки
zi_rus_ #
07:23
да
dvolodin #
07:23
link down + ping failed коррелируются как раз по рутовому интерфейсу
07:24
то есть упал линк -- подводим под него все ping failed, которые доступны через этот интерфейс
zi_rus_ #
07:24
а вот в этом не уверен
dvolodin #
07:24
вот в таком случае, если табличку заполнить правильно, то все будет работать быстро
zi_rus_ #
07:25
если мы не получили dying gasp то не знаем, линк даун является причиной или он следствие
dvolodin #
07:27
ну и трактуй как упавший линк
xetle #
07:29
Для того чтобы учесть кольцевую топологию надо хранить в базе и обновлять список ВСЕХ путей от каждого объекта к ядру, брасу, ...
dvolodin #
07:29
не надо
07:30
это сильно следующий шаг
xetle #
07:31
У меня в сети со строго кольцевой топологией получается точно определить причину: оптика, трасивер, питание или подвисание и послать на объеект соотведствующую ремонтную бригаду.
dvolodin #
07:31
в большинстве случаев нужно отсеять мусор, связанный с падением колец и коммутаторов доступа
xetle #
07:31
В топологии звезда точно причину определить не удастся.
dvolodin #
07:31
вот именно
xetle #
07:34
dvolodin: а что если кроме "быстрых" хендлеров добавить ещё один механизм который не в режиме реального времени будет обрабатывать аварии...
dvolodin #
07:34
одно другому не мешает
xetle #
07:35
Тоесть выполнять более ресурсоёмкие задачи по поиску причины и сортировки..
dvolodin #
07:35
тут такой еще момент
07:35
многие фолты при серьезных авариях тупо складываются
07:35
потому как долго просчитывают все последствия
xetle #
07:39
Вот быстрым хендлерам дать много проца, ибо обрабатывают приходящие аварии онлайн, а дополнительной задачи сортировки и поиска пичин nice -n 19 чтобы другим процессам не мешало, а в фоне медлено сортировало и упорядочнивало табличку алармов.
07:44
А куда форум делся? Там была тема с описанием около десятка алгоритмов для FM. По ним бы хендлеры написать...
07:48
Там же на форуме были темы с пирулями которые меняли приоритеты алярмов... Ещё до "интерфейс профиль" они закрывали алярмы на клиентских портах, а на аплинках подымали приоритет - почти готовые хендлеры...
dvolodin #
07:50
это есть в профилях все
xetle #
07:51
Да теперь автоматом в профилях. Но как пример хотелось глянуть.
zi_rus_ #
08:02
xetle, про форум ты freeseacher поругай, ему это все уже успели припомнить
xetle #
08:04
freeseacher: а почему форум закрыли? Да им не пользовался никто.. Что много спама было или взломал кто?
TSergey #
08:05
да кому лишние описания нужны
08:05
только хлопоты
08:06
[сарказм]
freeseacher #
08:46
xetle, zi_rus_ вопросы и ответы зато открыты
08:46
и никуда не делись
zi_rus_ #
08:46
я уже говорил
08:46
формат вопросов неудобен
TSergey #
08:47
zi_rus_: присоединяюсь
freeseacher #
08:50
что не так с форматом stackoverflow?
mikevlz #
08:54
этасамая
08:55
а гугл ни с кем больше не воюет?
08:56
чет у меня на ns он как-то странно реагирует
08:57
на ns команда host plus.google.com 8.8.8.8 отвечает servfail, на клиенте та же команда возвращает адреса
zi_rus_ #
08:58
[root@iz-wpc boot]# host plus.google.com 8.8.8.8
08:58
Using domain server:
08:58
Name: 8.8.8.8
08:58
Address: 8.8.8.8#53
08:58
Aliases:
08:58
plus.google.com has address 173.194.71.102
08:58
plus.google.com has address 173.194.71.100
08:58
plus.google.com has address 173.194.71.138
08:58
plus.google.com has address 173.194.71.101
mikevlz #
09:03
дык говорю же, что серверам отвечает servfail, клиентам(не всем) отдает нормально
09:03
если 8.8.4.4 с серверов спросить - все ок
zi_rus_ #
09:27
dvolodin, у меня очередной Мо в дискавери пишет дефферед
09:27
и что с ним делать?
lexus-omsk #
09:33
кстати такая же ситуация была с объектами, которые долго были unmanaged, включил их, а не идёт discovery до перезапуска noc
zi_rus_ #
09:33
dvolodin, я могу пересохранить и он начнет работать, но я из консоли уже делал save по всем объектам
09:34
а они продолжают появляться
dvolodin #
09:34
то есть после установки галочки is_managed задачи уходят в deferred?
09:34
или не выходят из него?
zi_rus_ #
09:35
у меня это с объектами по которым ping failed
09:35
был и вернулся
lexus-omsk #
09:37
да, у меня тоже не пинговались, потом я снял managed, а как починили доступы - вернул, пинг пошёл, алармы ушли, а discovery не пошёл
dvolodin #
09:43
e_zombie: а Dmitry1 при чем?
09:43
sed 's/: / : /'
09:43
:)
freeseacher #
09:43
e_zombie, сделай локалый патч то
09:44
в апстриме кроме тебя он никому не нужен
hartmy_ #
09:47
а где можно посмотреть условия выполнения например Event class temperature out of range ?
09:48
тоесть в каких условиях используются переменные min max threshold
e_zombie #
09:56
задача .
09:56
посмотреть на коммутаторах наличие свободного места .
09:57
через штатный механизм cli-coomands
09:57
запускаем
09:57
@@@ fsw-1-7dinamovsprzd-49-96-sar: OK
09:57
> dir
09:57
-rwx 255 boot.conf
09:57
-rwx 96 mantest.log
09:57
-rwx 6.5M nos.img
09:57
-rwx 232.3K nos.img.ecc
09:57
-rwx 2.4K startup.cfg
09:57
-rwx 19.3K startup99143.cfg
09:57
-rwx 2.7K vendor.cfg.ecc
09:57
Drive : flash:
09:57
Size:14.4M Used:6.8M Avaliable:7.6M Use:47%
09:57
получаем .
09:57
и вперёд ебаться .
09:57
1. отделять хостнейм.
09:58
2. лезть ручками в адрессный план чтобы "мартышка" могла зайти на коммутатор и разобраться с ним.
09:59
если кто то типа freeseacher думает что все инженера знают пейтон и это нахуй не надо - пусть встаёт под лучи. у меня они до четверга утра.
freeseacher #
10:03
найти место в котором выставляется твоеточие и въебенить перед ним проблел может уверен даже половина твоих(светловолосых) моделей. не то что бы инженер/сервачник
e_zombie #
10:04
я не собираюсь поддерживать форки
10:04
и плодить
10:04
хуиту
freeseacher #
10:04
ну какие форки то ?
10:04
кто же тебя просит поддерживать хуиту. и форки особенно.
10:05
сделай cd /opt/noc; hg diff
e_zombie #
10:05
внесение изменений в код без апстрима - пложение форков и идиотизм.
freeseacher #
10:06
я праивльно понимаю что у тя нет ни единого изменения ?
10:06
ванильный нок ?
_4ePTeHok #
10:06
это не форк
10:06
а кастомизация
e_zombie #
10:06
ты правильно понимаеш. кроме профиля qsw.2800
freeseacher #
10:06
почему ?
10:06
e_zombie, почему у тя нет изменений ?
10:06
что с тобой не так ?
e_zombie #
10:07
изменения у меня начнутся когда я начну писать профили для своего оборудования.
freeseacher #
10:07
аа
10:07
это видимо после новогодних праздников
10:07
ну ок.
e_zombie #
10:09
как то так. а сейчас перешивка 1500 кютечей на 6.х ветку с 7. ибо глючная.
TSergey #
10:12
а шестой на них нет?
e_zombie #
10:12
есть
TSergey #
10:12
я при перепрошивке длинков прежнюю оставляю
e_zombie #
10:12
только мы перешили их на семёрку
TSergey #
10:12
это видимо что-то глобальнее чем на длинке
lexus-omsk #
10:13
нехило вы протестировали, а я так и сижу на 6.3.100.62, в принципе устраивает, кроме диффов конфигов после каждой перезагрузки
e_zombie #
10:13
ну тут политические игрища.
lexus-omsk #
10:13
TSergey там нельзя предыдущую оставить, флэшка впритык
TSergey #
10:14
вот оно что
e_zombie #
10:14
кютеч ебёт мозг. началььство машет шашкой пытаясь выполнить план по приросту и уменьшить отток абонентов и тд.
10:14
Size:14.4M Used:7.4M Avaliable:7.0M Use:52%
10:14
Size:6.7M Used:6.6M Avaliable:120.0K Use:98%
10:14
Size:6.7M Used:6.6M Avaliable:124.0K Use:98%
10:14
Size:6.7M Used:6.6M Avaliable:138.0K Use:98%
10:15
[root@nocproject qtech-fashbootrom-20141222]# grep "Size:6.7M Used:6.6M Avaliable:138.0K Use:98%" out.work.txt | wc -l
10:15
1
10:15
[root@nocproject qtech-fashbootrom-20141222]# grep "Avaliable:1" out.work.txt | wc -l
10:15
13
10:15
[root@nocproject qtech-fashbootrom-20141222]# grep "Avaliable:7.0" out.work.txt | wc -l
10:15
20
10:15
[root@nocproject qtech-fashbootrom-20141222]# grep "Avaliable:7.1" out.work.txt | wc -l
10:15
1
10:15
[root@nocproject qtech-fashbootrom-20141222]# grep "Avaliable:7.2" out.work.txt | wc -l
10:15
2
10:15
[root@nocproject qtech-fashbootrom-20141222]# grep "Avaliable:7.3" out.work.txt | wc -l
10:15
0
10:15
за такие стройки надо руки отрывать
zi_rus_ #
10:35
dvolodin, ты веришь про пинг файлед?
10:36
явно какая-то бага
e_zombie #
10:41
zi_rus_: а что у тебя с пингам?
zi_rus_ #
10:41
что-что
10:41
ping failed
10:41
а потом когда железка вернулась то дискавери не возобновляется
e_zombie #
10:42
у меня когда рестартишь нок и оно начинает пинговать все 11 000 хостов часть не пропинговывается и потом висит вечно что недоступен
10:42
хотя железка живая
10:46
хотя вот выбираю руками хосты - теория не подтверждается.
TSergey #
11:56
freeseacher: на http://kb.nocproject.org/ снова убил ссылки на код?
e_zombie #
12:02
https://pp.vk.me/c622419/v622419141/1036f/e-GPMqb80wM.jpg
12:05
http://www.obeschania.ru/landing/v4/?utm_source=vh_2exp_3&utm_medium=vk&utm_term=vh&utm_content=12&utm_campaign=skype#skype
zi_rus_ #
12:28
dvolodin, переоткрыл NOC-1010 - NOC-1010
dvolodin #
12:29
зачем отдельный класс?
bee26 #
12:39
может кому поможет? нашел недокументированную фичу по ограничению лог файлов
12:39
logsize = 5000000
12:39
logfiles = 5
e_zombie #
12:39
боян
bee26 #
12:39
по отдельности не работает. обязательно надо оба параметра
e_zombie #
12:39
main]
12:39
logfile = /var/noc/log/noc-sae.log
12:39
loglevel = info
12:39
logsize = 102400000
12:39
logfiles = 9
bee26 #
12:39
а фигли все молчали, когда я спрашивал?
e_zombie #
12:39
syslog_host =
12:40
типа оба параметра надо?
bee26 #
12:40
обязательно
e_zombie #
12:40
аааа
12:40
делай багу.
bee26 #
12:40
логично вроде. какая же это бага?
12:41
2 месяца вручную логи удалял
xetle #
12:45
for i in $(ls ${S}/etc/*.defaults); do sed -i 's/logfiles = 0/logfiles = 9/' $i; done
12:45
for i in $(ls ${S}/etc/*.defaults); do sed -i 's/logsize = 0/logsize = 1000000/' $i; done
12:46
Там 1 метра логов вполне хватает..
bee26 #
12:47
если info то мало
xetle #
12:47
Не мало, даже с трейсами хватает...
dvolodin #
12:50
http://i64.fastpic.ru/big/2014/1222/96/e6bd33f6870cf20d21715a5b76023a96.png
zi_rus_ #
12:50
dvolodin, потому что event class это конкрентое событие, он определяет что произошло независимо от того что пишет железка, RFI dying gasp это одно событие, а RFI remote client shutdown - это совсем другое и смешивать их в одном классе я считаю неправильным, у них общее
12:50
только то что для индикации используется один протокол - ОАМ
12:50
это ника не основание объединять их одним классом
dvolodin #
12:50
zi_rus_: ты в disposition можешь сделать в condition проверку, что тебе интересен только dying gasp
zi_rus_ #
12:50
я понял что могу
12:51
но я считаю это неправильным
dvolodin #
12:51
и поднимать разные аварии
zi_rus_ #
12:51
ты нарушаешь самою концепцию и подставляешь к результату костыли. занахера?
12:57
dvolodin, понимаешь о чем я? если делать как ты говоришь, то нам не нужны будут ивент классы, просто куча регэкспов и хендлеры переполненные костылями
dvolodin #
12:59
а что с тем классом, который я делал?
zi_rus_ #
13:02
dvolodin, удалить или переделать. его делал второй Дмитрий когда я его пинал, но у него нездоровое желание пихать кучу разнородных событий в один класс. Вершиной мастерства для него видимо стало бы когда он сделал бы правило ",*"
13:02
dvolodin, также надо убрать правило кллассификации /opt/noc/fm/collections/eventclassificationrules/Cisco/IOS/Network/OAM/Client_Recieved_Remote_Failure_SYSLOG_.json
13:03
dvolodin, в общем в новом классе я просто взял то что ты сделал и персонализировал выкинув пару деталей, так что можешь считать что новый класс ты тоже сам сделал
dvolodin #
13:23
опечаток у тебя, как у школьника, блин
13:23
ладно, попозже займусь
13:24
там в condition можно писать так же, как и в managed_object
13:24
чтобы определить - поднимать аларм, или нет
zi_rus_ #
13:26
да отвлекают потому что
13:26
и ты так и не сдалал создание классов из веба
13:26
приходится консоли опечатываться
dvolodin #
13:33
влепил альтернативно одаренную навигацию
zi_rus_ #
13:39
опять глюков добавил
dvolodin #
13:40
каких именно?
zi_rus_ #
13:41
а бывает иначе?
dvolodin #
13:43
ты, кстати, привязку gying gasp к питалову на другой стороне линка проверил?
zi_rus #
13:56
dvolodin, в смысле?
13:57
то что dying-gasp прилетает из-за питания? да, это проверено неоднократно
hartmy_ #
14:00
обнаружил что вроде починили таймзону =)
e_zombie #
14:00
zi_rus: NOC-1502
zi_rus #
14:01
e_zombie, мои тебе соболезнования. а что ты от меня хочешь?
e_zombie #
14:02
покажи какой промп правильный будет. я пробовал от хуавея взять вроде работало но это не факт что правильно и оптимально
14:02
опять же коммитить я не могу
zi_rus #
14:02
в душ не ебу какой правильный будет, и я тоже не могу ничего коммитить
e_zombie #
14:03
ну знач будем как всегда
14:03
как нибудь
hartmy_ #
14:06
можно ли в темплейте сослаться на переменную из classification rule или как мне значение достать из snmp trap ?
14:06
попробовал {{ alarm.vars.level }} - пусто
14:06
level - название переменной из snmp trap
14:36
как вообще в темплейтах сослаться на какую нибудь переменную из аларма
zi_rus #
14:57
как-то можно
hartmy_ #
15:00
о как , а вот такую штуку как сделать
15:00
NOC-673 ?
dvolodin #
15:04
{{alarm.vars.name}}
hartmy_ #
15:05
dvolodin: так я так и указывал
15:05
{{ alarm.vars.level }}
15:06
или без пробелов?
dvolodin #
15:06
без разниув
hartmy_ #
15:06
хм, тогда почему то пусто
15:07
если я в classification rule создаю свою vars - level например
dvolodin #
15:07
он в alarm попадает вообще?
hartmy_ #
15:08
да, только я его завожу в виде патерна ^(?P<level>[013])$
15:09
аларм создается, письмо приходит а внутри конструкция {{ alarm.vars.level }} пустая
15:09
ps: в json переменной level нет
Tweet
Share this page
Share this page: Tweet