About Forum Blogs NOC Docs Downloads KB Issues Code CI Registration

nocproject.org

#nocproject.org at irc.freenode.net log.
Back to nocproject.org Back to IRC log index
Date: 13.04.2016
SomovIS_ #
05:45
https://www.irccloud.com/pastebin/syKPTrCP/
e_zombie #
06:01
,,
06:05
https://pp.vk.me/c633529/v633529151/23360/CqLkTKAodN0.jpg
06:05
https://pp.vk.me/c633529/v633529151/2334c/MJ2BxMo6hYo.jpg
06:05
https://pp.vk.me/c633529/v633529151/23046/1Rp_zS_b_FY.jpg
06:41
Dmitry1: не обновляйся. деплой сломан
dvolodin #
06:42
чиним
Dmitry1 #
06:42
у меня он сломан со времен добавления опции "auth_request_set" в nginx
e_zombie #
06:43
гыгыггы
Dmitry1 #
06:43
и в новом NOC я опять всем MO снял галочку "is active"
06:43
NOC мне успешно положил Juniper MX80 с 6K абонентами
e_zombie #
06:44
ураааааа!!!!!
06:44
чем положил
Dmitry1 #
06:44
get_interfaces
06:44
у меня BRAS, где на каждого абонента создается свой интерфейс
e_zombie #
06:44
это да.
Dmitry1 #
06:44
тупо закончилась память и CPU 100%
dvolodin #
06:45
на show interfaces закончилась?
Dmitry1 #
06:45
нет
dvolodin #
06:45
а на чем?
Dmitry1 #
06:46
скрипт вылетал по таймауту. выставление таймаута в noc.conf ничего не дало
dvolodin #
06:46
а при чем тут mx?
06:46
как это помогло ему упасть?
Dmitry1 #
06:47
при том, что через минуту NOC опять ломился на MX. когда там отрабатывал еще старый скрипт
06:47
и загово запускал "show interfaces"
06:47
и так, пока память не закончилась
dvolodin #
06:47
зачем ты ему failed interval в минуту поставил?
06:48
ломится он строго по расписанию
Dmitry1 #
06:48
#cat noc.conf | grep Juniper
06:48
Juniper.JUNOS.sync_prefix_lists = 1800
06:48
Juniper.JUNOS.get_interfaces = 1800
06:48
в логах упорно пишет интервал в 120 секунд
06:50
И да, я не нашел комбинации чекбоксов, при которой можно было бы запустить скрипт всего один раз, а он не пытался сам запуститься через какой-то промежуток
dvolodin #
06:51
не смотрит от noc.conf
Dmitry1 #
06:51
а где таймаут скрипта выставлять ?
e_zombie #
06:51
а зачем он там ест ь*
06:51
?
dvolodin #
06:51
noc.conf вообще больше нет
06:51
:)
Dmitry1 #
06:53
dvolodin: Дим, я еще мог отмазаться, когда из-за NOC глючили свичи с двумя тысячами пользователей, но когда ушла в себя железка с шестью тысячами пользователей,. это уже не смешно.
e_zombie #
06:53
[root@noc2host noc]# ls -la /opt/noc/etc/ | grep noc.conf
06:53
-rw-r--r--. 1 root root 281 Apr 12 17:52 noc.conf
06:53
кто из черепашек пиздит?
dvolodin #
06:55
то, что файл есть, не значит, что он используется
e_zombie #
06:55
НАХУЯ ТОГДА ОНО ТАМ ТОГДА?
Dmitry1 #
07:00
Неужели так трудно сделать, чтобы скрипты выполнялись ТОЛЬКО по желанию пользователя, а не тогда, когда им захочется ?
dvolodin #
07:03
тогда получится rancid, нафига оно нам
e_zombie #
07:03
https://pp.vk.me/c7010/v7010243/61fa/p7rHO2K21Io.jpg
bee26 #
07:05
башня накрылась https://paste.ee/p/Ia2Xj
Dmitry1 #
07:06
dvolodin: Тогда нужно на главной страниц NOC вывести список оборудования, на котором нельзя его запускать ни в коем случае
e_zombie #
07:06
bee26: :[|||||||||||||||||||]:
Dmitry1 #
07:09
dvolodin: ты ведь не будешь говорить, что Juniper такое же гавно, что и D-Link. Но как показала практика, Juniper с помощью NOC превращается в кирпич не менее успешно, чем D-Link
dvolodin #
07:10
какой у тебя failed interval стоял, для начала
Dmitry1 #
07:10
все по умолчанию стояло
dvolodin #
07:10
MX80 - говно со слабым процом
07:10
и вообще ошибка детства, если что
SomovIS_ #
07:10
Dmitry1: странно, что у тебя mx80 залип, там интерфейсов всего ничего
Dmitry1 #
07:11
mitya# run show interfaces summary
07:11
Logical interfaces:
07:11
System's maximum logical interfaces : 262144
07:11
Logical interfaces allocated : 4474
07:11
Logical interfaces available : 257670
07:11
SomovIS_: в данный момент - 4474
07:12
вечерами - больше 6 тысяч
dvolodin #
07:13
SomovIS_: там проц дохлый очень
SomovIS_ #
07:13
какой там проц?
dvolodin #
07:13
Atom какой-то
07:13
если мне память не изменяет
Dmitry1 #
07:13
dvolodin: Дим, я уже несколько лет прошу. Можно ли сделать такие значения "из коробки", ну или несколько профилей "из коробки", чтобы можно было не бояться положить сеть
SomovIS_ #
07:14
пичалька
07:14
Это не mx480 с xeon на борту :)
Dmitry1 #
07:14
https://en.wikipedia.org/wiki/PowerPC_e500#e500v2
dvolodin #
07:14
точнее -- когда MX80 был гибридом супа и линейной карты как замена MX480 -- он катил по цене
Dmitry1 #
07:15
dvolodin: до появления MS-MIC-16G
dvolodin #
07:15
на MS свой проц
Dmitry1 #
07:15
да
dvolodin #
07:15
а вот BRAS из него - бестолковый
Dmitry1 #
07:16
mitya# run show services service-sets summary
07:16
Service sets CPU
07:16
Interface configured Bytes used Policy bytes used utilization
07:16
ms-0/2/0 2 1694976980 (14.03%) 4119352 ( 0.76%) 11.32 %
07:16
вот загрузка MS-MIC
07:16
он работает отлично
dvolodin #
07:16
дим, та же BGP не на MIC обрабатывается
07:16
:)
Dmitry1 #
07:16
а вот CLI и все такое - выполняется на центральном свиче
PavelGloba #
07:16
Бля
07:17
ИМХО
07:17
Джунипер дерьмо ещё то
07:17
Как
dvolodin #
07:17
а там проц, извините, от мелкой каталисты
07:17
:)
PavelGloba #
07:17
Как в нормальной железке за такие бабки
dvolodin #
07:17
MX80 - барахло
PavelGloba #
07:17
Не учитывается, что он должен продолжать работать не смотря, что ему там кто-то дёргает менеджмент
07:17
Если кончаются ресурсы, то должен отваливаться менеджмент, пинг и прочее
07:18
но не routing
SomovIS_ #
07:18
а как MX104?
dvolodin #
07:18
проверяйте деплой
SomovIS_ #
07:18
Там такое же железо?
Dmitry1 #
07:18
dvolodin: уходим от темы. Можно ли сделать "из коробки" несколько готовых MO профилей под разные задачи ? со своими таймаутами и т.п. ?
dvolodin #
07:18
сотой серии я не застал
Dmitry1 #
07:18
PavelGloba: у меня там BRAS, т.е. jdhcpd, authd и т.п.
dvolodin #
07:19
погоди, ты еще с MX80 адреса раздаешь?
Dmitry1 #
07:19
конечно
dvolodin #
07:19
а нафига
07:19
если это можно с radius'а сделать
Dmitry1 #
07:19
BRAS потому что
dvolodin #
07:19
:)
07:19
и что?
PavelGloba #
07:20
Dmitry1: да вообще поебать что там. Не должно такого происходить. Это зашквар.
dvolodin #
07:20
но, 4k интерфейсов выдрать - не проблема
07:20
NOC, кстати, очень эротично рисует количество юзеров на TIMOS'е
Dmitry1 #
07:21
dvolodin: не проблема, но скрипт отваливается по таймауту, а в это же время туда пытается ломиться другой скрипт
SomovIS_ #
07:21
Меня бесят некоторые джуны, например ex4300 - железо от qfx5100, но не работает mpls (только одна метка работает, как P); ex4550 - не работает локальный route leaking, нельзя для интерфейсов, которые в разных vrf сделать
07:21
доступ между ними.
evyscr #
07:21
Dmitry1: а по какому таймауту отваливается?
dvolodin #
07:21
EX'ы - относительно неплохи, ты зря
Dmitry1 #
07:21
evyscr: 120 секунд
dvolodin #
07:21
Dmitry1: давай логи, почем я знаю, что оно у тебя так долбится
evyscr #
07:22
а то в ноке педерастическая схема, в которой надо учитывать CLI_TIMEOUT
dvolodin #
07:22
у нас сейчас дохрена железа опрашивается
evyscr #
07:22
ежели вдруг snmp используется
SomovIS_ #
07:22
dvolodin: ex4300 - железо от qfx5100, но на qfx l3vpn работает, а на ex4300 нет. ex4550 - не работает локальный RL, как жить без этого?
07:22
в целом, как коммутаторы, они хороши
dvolodin #
07:22
SomovIS_: а ты знаешь, я L2 коммутаторы использую как L2 коммутаторы
07:22
:)
07:22
вот такая я скотина
07:23
:)
Dmitry1 #
07:23
dvolodin: Дим, достаточно ождновременно запустить get_interfaces, get_interface_status и get_arp - получаем труп
dvolodin #
07:23
так погоди
07:23
ты путаешься в показаниях
SomovIS_ #
07:24
dvolodin: да, их тоже покупали для l2, никто не думал про l3vpn, но вот железо резко понадобилась с таким функционалом..
dvolodin #
07:24
box discovery начал делать interface discovery, отлетел по таймауту и поверх еще работающей команды навернул следующую и убил MX80?
Dmitry1 #
07:24
да
dvolodin #
07:24
ну а ты заявлял, что NOC ломится на него каждую минуту и задрачивает насмерть
07:24
неувязочка
Dmitry1 #
07:24
да
dvolodin #
07:25
потому как нет у него такой привычки
07:25
и scheduler в микросервисах, кстати, мне очень нравится
Dmitry1 #
07:25
перезапусти NOC - тут же поломится на железку, не зависимо от того, какой таймаут в BOXе стоит
dvolodin #
07:25
да вот нифига
07:25
нет у него такой привычки
Dmitry1 #
07:26
логти показать ?
dvolodin #
07:26
если не доработал задачу - да, пойдет переделывать
07:26
это правильно
Dmitry1 #
07:26
послек каждого перезапуска километр логов discovery
07:26
"если не доработал задачу" == отвалился по таймауту
07:26
т.е. долбится вечно
evyscr #
07:27
требуй адаптивных таймаутов
dvolodin #
07:27
при чем здесь перезапуск NOC?
SomovIS_ #
07:27
dvolodin: next https://www.irccloud.com/pastebin/GxEKlz6m/
Dmitry1 #
07:27
dvolodin: Дим, можно ли сделать, чтобы скрипты запускались только по желанию пользователя, игнорируя таймауты в BOX ?
e_zombie #
07:28
у меня деплой так же вальнулся. но при запуски из консоли прошло норм
PavelGloba #
07:28
Тот кто говорит, что ex серия хороша как коммутаторы, никогда не видел хэш коллизий и никогда не пересоздавал вланы потому что у тебя просто нисхуя начинают отваливаться хосты.
Dmitry1 #
07:28
dvolodin: Мне нужно ОДИН раз запустить get_interfaces
SomovIS_ #
07:29
PavelGloba: у меня было нечто подобное, только вот прис оздании нового vlan он не форвардился на ex4300 до рестарта l2-cpd, вылечили обновлением
07:30
в нем маков не было вообще и stp не работал
e_zombie #
07:30
http://pastebin.com/2uXxhXkM
PavelGloba #
07:30
это другая проблема
Dmitry1 #
07:30
dvolodin: если скрипт по каким-то причинам не отработал, не пытаться его выполнить каждую минуту
PavelGloba #
07:31
надо у кого-нибудь из ретна узнать как они с ex серией живут, у них там всё ок
dvolodin #
07:31
e_zombie: ага, вижу
SomovIS_ #
07:31
У нас в целом много ex 2200 - 9200
07:32
почти все есть. Косяки с ними тоже есть, как и с любым вендором в принципе, но уже давно проблем не было )
Dmitry1 #
07:33
dvolodin: Представь себе, что ты оказываешь коммерческую поддержку NOC. И у органищации стоят пара десятков Juniper MX80. Как ты думаешь, что они тебе скажут по этому поводу ?
SomovIS_ #
07:33
Деплой починили
e_zombie #
07:33
он оказывает саппорт РТ. ему похуй.
07:34
SomovIS_: нихуя.
SomovIS_ #
07:34
только что
e_zombie #
07:34
смотри копипасту выше
SomovIS_ #
07:34
У меня прошло, прям щас
dvolodin #
07:35
Dmitry1: ПМИ и ПСИ придумали трусы, я знаю
07:35
e_zombie: сейчас поправлю
SomovIS_ #
07:35
XR тоже бесит, когда сабинтерфейс падает - сислог шлет об этом, а когда поднимается - не шлет
Dmitry1 #
07:37
dvolodin: как быть тем людям, у которых не enterprise ? А если я куплю Juniper MX960, и на него посажу 20 тысяч абонентов, ты тоде будешь говорить, что там слабый процессор ?
dvolodin #
07:38
Дим, у тебя железка упала от параллельно запущеных команд show interfaces и show arp
07:38
что я должен сказать?
SomovIS_ #
07:38
cli ограничение поставь на кол-во сессий, для snmp ddos-protection (copp)
PavelGloba #
07:38
Dmitry1: а он может. Он может и в циклический ребут уйти) Не покупай, плз
Dmitry1 #
07:39
dvolodin: смотри, как происходило? выполняется команда "show interfaces". в это время отвалился по таймауту скрипт. Т.е. счетчик запущенных скриптов стал 0.
07:39
Но комагда на самой железке продолжает выполняться еще какое-то время
07:40
И тут NOC опять лезет на железку
07:40
И пиздец
07:41
Нужно сделать, чтобы не выполнялись скрипты без ведома пользователяя
07:42
Это единственный способ не получить "кирпич" на слабых железках
SomovIS_ #
07:43
странно конечно, у меня ex2200 есть в стаке из 4шт, они гораздо тупее, но при этом не виснут
dvolodin #
07:44
e_zombie: проверяй
07:44
на ex процы мощнее :)
Dmitry1 #
07:44
SomovIS_: создай на них несколько тысяч интерфейсов
SomovIS_ #
07:44
на 2200? ))
Dmitry1 #
07:46
dvolodin: Дим, речь идет не о моделях железок, а о том, что нужно дать возможность запускать скрипты не через шедулер, а по запросу пользователя
dvolodin #
07:46
и получить rancid
e_zombie #
07:47
https://nplus1.ru/news/2016/04/13/so-sorry
Dmitry1 #
07:48
что такое rancid ? поиск в гугле дает ссылки на музыку
dvolodin #
07:49
штука, которая позволяет запускать скрипты по запросу пользователя
e_zombie #
07:49
http://pastebin.com/93VGUeKx
07:50
ПОГ во все поля
Dmitry1 #
07:50
ну и замечательно. у нас такое есть давно уже в SA->Tasks->Run command и SA->Tasks->Run snippet
e_zombie #
07:50
бля подарите володину уже комп с вмварью для тестирования деплоев
SomovIS_ #
07:51
у него разве нет инфраструктуры под это? :)
Dmitry1 #
07:51
Подарите ему пару длинков лучше
e_zombie #
07:51
походу нету. сколько ебли было с деплоем на центосы рхелы
SomovIS_ #
07:52
dvolodin: кстати, после многочисленных деплоев заметил: сервер становится все более загружен после каждого деплоя и может запросто сожрать 8цпу и 8гбрам в моей конфигурации
07:52
после перезагрузки ок
dvolodin #
07:53
noc=> select count(*) from sa_managedobjectattribute where key='vendor' and value='DLink';
07:53
count
07:53
-------
07:53
691
07:53
(1 row)
07:53
и не ребутятся, заразы
07:53
что мы делаем не так?
Dmitry1 #
07:54
dvolodin: а ты заведи пару тысяч MAC и ARP на одном из них, и увидишь
dvolodin #
07:54
SomovIS_: там discovery наверстывает упущенное
PavelGloba #
07:54
e_zombie: http://images-cdn.9gag.com/photo/a5K2pPq_700b.jpg
dvolodin #
07:54
Dmitry1: а зачем мне это делать, если для пары тысяч маков есть алики 6850, а для ARP - 7450?
Dmitry1 #
07:55
dvolodin: у нас в городе почему-то нет предстиавительства Allied Telesis, но есть представительство D-Link
07:55
Мне город менять ?
SomovIS_ #
07:56
e_zombie: вот у меня скоро будет POC, заодно проверим :)
e_zombie #
07:56
ну по факту хорошая идея. сразу будет повод писать багрепорты производителю.
07:57
пришлют говножелезку на тесты а ты её так - хуяк и положил. и нахер пусть идут переделывают
dvolodin #
07:57
Dmitry1: я про ALU, вообще-то
07:57
e_zombie: а я подумаю, кстати
SomovIS_ #
07:57
У нас 9208 ложился пару раз, один раз вообще хз как, целиком железка в ребут ушла
dvolodin #
07:57
может действительно в лабе стресстест устраивать по management'у
Dmitry1 #
07:58
dvolodin: Дим, какая разница. Дело не в железках, и не в их глюках. А дело в NOC, который постоянно ломится на эти железки.
misak #
07:59
да
07:59
из-за нока у меня экстримы в ребут шли
07:59
вот именно из-за такого поведения
SomovIS_ #
07:59
440?
misak #
08:00
пришлось SSH вообще отключать и ограничивать сессии телнетов
08:00
670-е Саммиты
08:00
но 7 штук в стеке
SomovIS_ #
08:01
У нас 440 раз в месяц просят ребут после апдейта, локальная проблема
misak #
08:01
и на длинках я ограничил количество скриптов в ноке до 1-го
Dmitry1 #
08:01
Диме пофиг, вот когда NOC "положит" половину ростелекома, тогда он увидит проблему
08:01
ограничение количества скриптов ничего не дает
misak #
08:02
ну хоть что-то
Dmitry1 #
08:02
если скрипт "слетает", то процессор еще какое-то время загружен
08:02
а в это время NOC начинает ломиться с другим скриптом
misak #
08:02
длинки просто одного и того же пользователя не пускают иногда по телнету одновременно
dvolodin #
08:02
короче, в микросервисах таймакты скриптов адаптивны
08:02
и могут учитывать платформу
misak #
08:02
забиваются фейлд скрипты
dvolodin #
08:03
misak: микросервисы совсем по другому себя ведут
08:03
это уже не актуально
misak #
08:03
актуально, пока не зарелизили
08:03
ну или внятного пути апгрейда нет
SomovIS_ #
08:05
dvolodin: напомни, что надо сделать, что бы severity аварий выставлялось в нужное, а не в ignore?
PavelGloba #
08:10
SomovIS_: а это ты писал, что у тебя сделано куча кастомных ивентклассов и правил для цыски в fm?
Dmitry1 #
08:11
dvolodin: Джунипер у меня ""сдох" на микросервисах
08:11
И да, я не нашел в микросервисах кнопку "запустить get_interfaces только один раз"
SomovIS_ #
08:11
PavelGloba: не куча, в основном для ASA делал, некоторые ev class поправил существующие
dvolodin #
08:14
SomovIS_: оно у тебя сейчас 0?
SomovIS_ #
08:14
dvolodin: FM > reports > outages > csv пустое экспортит
dvolodin #
08:14
Dmitry1: интервал повтора для box discovery поставь в год, и будет счастье
08:15
SomovIS_: а данные в таблице есть?
SomovIS_ #
08:15
да
PavelGloba #
08:15
SomovIS_: понтяно. Ас у меня нет. Я тут пытался написать класс для разбора вот таких сообщений
08:15
*Mar 10 04:49:24 MSK: %SW_DAI-4-DHCP_SNOOPING_DENY: 1 Invalid ARPs (Req) on Gi0/3, vlan 179.([e8ba.705d.4a61/192.168.179.1More Information/0000.0000.0000/192.168.179.95More Information/04:49:23 MSK Wed Mar 10 1993])
08:15
http://pastebin.com/0JMkF6iW
08:15
но соснул хуйца
Dmitry1 #
08:15
dvolodin: я тебе в тысячный раз говорю, что при рестарте NOC оно начинает ДОЛБИТЬСЯ на все железки, хоть в сто лет интервал ставишь
PavelGloba #
08:15
потом из базы удалял руками
SomovIS_ #
08:15
dvolodin: Class: Network | MAC | MAC Flap Severity: IGNORE (1)
08:16
Class: NOC | Managed Object | Ping Failed Severity: IGNORE (1)
PavelGloba #
08:16
что я делаю не так?
SomovIS_ #
08:16
Как оно определяет 1?
dvolodin #
08:16
минимальное, чтобы нулем не было
08:17
Dmitry1: покажи логи, что микросервисы после рестарта долбятся во все железки
Dmitry1 #
08:17
dvolodin: если результат выполнения скрипта "Failed", то оно будет бесконечно долбиться на железки
dvolodin #
08:17
я не верю в это
e_zombie #
08:17
Dmitry1: отстань от него. пусть дочинит деплой.
SomovIS_ #
08:18
dvolodin: экспорт csv в FM не работает
Dmitry1 #
08:18
dvolodin: я снес микросервисы
SomovIS_ #
08:18
Вообще все репорты в файле пустые
dvolodin #
08:18
e_zombie: деплой я дочинил
SomovIS_ #
08:19
Раз в месяц удобно было бы отправлять outages по почте, можно так сделать?
dvolodin #
08:19
SomovIS_: где совесть?
08:19
берете симпатичную девушку
08:19
и пусть она вам раз в месяц по почте
08:19
:)
SomovIS_ #
08:20
PavelGloba: попробуй аналогично другим правилам сделать. Надо сперва event class создать и потом уже classification rule
08:20
kodos для проверки регулярки в class rule
08:21
dvolodin: оптимизация нужна :)
08:21
и автоматизация
PavelGloba #
08:22
SomovIS_: я так и делал)
SomovIS_ #
08:22
помоему неплохо было бы такое summary раз в месяц кидать: перезагрузки, outages, доступность и т.п.
08:23
dvolodin: можно добавить такую возможность из коробки?)
PavelGloba #
08:23
SomovIS_: попробую разобраться
SomovIS_ #
08:23
У тебя test не проходит или именно валиться на тесте?
e_zombie #
08:24
dvolodin: http://pastebin.com/fvwyhXAg
SomovIS_ #
08:25
dvolodin: и расскажи пожалуйста всем нам как сделать, что бы нужные события были нужными, а не все в ignore
dvolodin #
08:28
SomovIS_: клиентов навесить?
08:28
или вес железки добавлять
PavelGloba #
08:28
SomovIS_: у меня не то что тест не проходил. У меня скрипт выпадал, когда пытался разобрать лог. Когда я пытался найти это правило и удалить, нок переставал подгружать правила
08:28
и ивент классы тоже
08:29
Пришлось заходить в базу, искать там правило и удалять
SomovIS_ #
08:29
dvolodin: а если как токовых клиентов нету?
PavelGloba #
08:29
класс*
SomovIS_ #
08:29
crm не существует у нас :)
08:29
Мы другого типа SP
08:30
PavelGloba: это ev class неправильный был, иначе бы test хотя бы проходил/не проходил
PavelGloba #
08:31
SomovIS_: я так и понял, но как понять что там не так? http://pastebin.com/0JMkF6iW json валидный
08:32
{{vlan}}. он точки нормально воспринимает или надо что-то перед ними ставить?
SomovIS_ #
08:33
2 раза target mac и vlan "type": "int" зачем?
dvolodin #
08:34
SomovIS_: тогда так
08:34
топаешь в FM > Setup > Alarm Severity
08:34
и крутишь min weigh
SomovIS_ #
08:35
dvolodin https://usercontent.irccloud-cdn.com/file/sSQyTXM2/
dvolodin #
08:35
ну да
08:35
коррелятор дерни еще
SomovIS_ #
08:35
а дальше тогда что?
08:36
Как дернуть?)
dvolodin #
08:36
./noc ctl restart correlator
SomovIS_ #
08:36
PavelGloba vlan int вроде правильно, можно str проверить, если на int Не взлетает
08:37
щас дерну железку какю-нибудь :)
08:45
dvolodin: IGNORE
08:45
NOC | Managed Object | Ping Failed
08:45
Ping Failed
08:45
4s
08:45
1
freeseacher #
08:45
> бля подарите володину уже комп с вмварью для тестирования деплоев
08:46
можно не дарить а предоставить.
08:46
я переодически говорю об этом.
SomovIS_ #
08:48
ping failed явно должно быть не ignore
dvolodin #
08:54
SomovIS_: а поставь INFO - severity = 1
09:02
а вообще, наверное, нужно еще и из профиля брать down severity и прибавлять к общему весу
SomovIS_ #
09:03
dvolodin: Ты про это? https://usercontent.irccloud-cdn.com/file/bW9touPY/
Dmitry1 #
09:08
dvolodin: смотри
09:08
ssh-keygen -q -t rsa -b 4096 -f /usr/local/tower/var/tower/ssh/TRK/default/id_rsa -N -C default@noc
09:08
Too many arguments.
SomovIS_ #
09:09
dvolodin: поставил, корелятор перекрасил существующие аварии в info
Dmitry1 #
09:09
нужно
09:09
ssh-keygen -q -t rsa -b 4096 -f /usr/local/tower/var/tower/ssh/TRK/default/id_rsa -N "" -C default@noc
09:09
ошибка такоя:
09:09
CalledProcessError: Command '['ssh-keygen', '-q', '-t', 'rsa', '-b', '4096', '-f', u'/usr/local/tower/var/tower/ssh/TRK/default/id_rsa', '-N', '', '-C', u'default@noc']' returned non-zero exit status 255
SomovIS_ #
09:10
dvolodin: Но как сделать теперь, как было раньше, что бы warning = 4k, critical = 5k и т.п.?
Dmitry1 #
09:10
или убрать -N, или как-то ему по другому передать пустую строку
dvolodin #
09:11
SomovIS_: я думаю - веса на железке нужно еще сделать
09:11
не только на сервисах
SomovIS_ #
09:11
ага
09:12
может к профилю железки?
09:12
MO Profiles
freeseacher #
09:12
Dmitry1, фря?
Dmitry1 #
09:13
да
SomovIS_ #
09:13
Там сейчас severity и есть, туда же и веса
freeseacher #
09:13
какие ключи фря не знает ?
Dmitry1 #
09:13
-N без аргумента. Ему нужно давать -N ""
freeseacher #
09:13
а
09:14
понял идею
dvolodin #
09:14
на линуксах только проверьте
09:15
так, топаем в телеграм
09:15
:)
09:19
subprocess.check_call(
09:19
["ssh-keygen", "-q", "-t", t, "-b", str(b),
09:19
"-f", fn,
09:19
"-N", "", "-C", "%s@noc" % pool.name]
09:19
)
09:19
я таки ставил пустые параметры
SomovIS_ #
09:20
dvolodin: Дим, почини пожалуйста экспорт csv и возможно ли сделать summary, о котором я писал выше?
dvolodin #
09:20
я уже теряюсь в IRC, давайте в телеграм
evyscr #
09:58
asset_discovery sucks
Dmitry1 #
09:58
dvolodin: Дим, напрмни мне, где отладку выполняемых команд в башне включить можно ?
dvolodin #
09:59
./noc script --debug ..... ?
Dmitry1 #
10:00
башня
10:00
CalledProcessError: Command '['ssh-keygen', '-q', '-t', 'rsa', '-b', '4096', '-f', u'/usr/local/tower/var/tower/ssh/TRK/default/id_rsa', '-N', '""', '-C', u'default@noc']' returned non-zero exit status 1
10:01
как увидеть, что за команда выполняется, и что она в консоль написала
dvolodin #
10:03
а
10:03
там никак не включишь
Dmitry1 #
10:06
CalledProcessError: Command '['ssh-keygen', '-q', '-t', 'rsa', '-b', '4096', '-f', u'/usr/local/tower/var/tower/ssh/TRK/default/id_rsa', '-N', "''", '-C', u'default@noc']' returned non-zero exit status 1
10:07
блин, как передать туда дву кавычки ?
10:08
ага, с третьей попытки угадал вроде
10:08
нет
10:08
CalledProcessError: Command '['ssh-keygen', '-q', '-t', 'rsa', '-b', '4096', '-f', u'/usr/local/tower/var/tower/ssh/TRK/default/id_rsa', '-N', "''", '-C', u'default@noc']' returned non-zero exit status 1
10:09
сцуко
10:09
CalledProcessError: Command '['ssh-keygen', '-q', '-t', 'rsa', '-b', '4096', '-f', u'/usr/local/tower/var/tower/ssh/TRK/default/id_rsa', '-N', '\\"\\"', '-C', u'default@noc']' returned non-zero exit status 1
10:11
с пятой попытки угадал, вроде
10:15
TASK [node : Pull NOC] 00:56fatal: [TRK]: FAILED! => {"changed": false, "failed": true, "msg": "abort: error: Connection refused\n"}
10:15
куда смотреть ?
theuser #
10:26
Коллеги, как бороться с падением mongo? Падает крайне стабильно - почти каждое утро 2016-03-31T05:24:18.535+0300 [journal] SEVERE: Got signal: 6 (Aborted).
10:26
2016-04-02T05:23:59.979+0300 [journal] SEVERE: Got signal: 6 (Aborted).
10:26
2016-04-03T06:11:56.116+0300 [journal] SEVERE: Got signal: 6 (Aborted).
10:26
2016-04-05T05:58:19.838+0300 [journal] SEVERE: Got signal: 6 (Aborted).
10:26
2016-04-06T05:55:52.321+0300 [journal] SEVERE: Got signal: 6 (Aborted).
10:26
2016-04-07T05:48:38.593+0300 [journal] SEVERE: Got signal: 6 (Aborted).
10:26
2016-04-08T06:08:45.458+0300 [journal] SEVERE: Got signal: 6 (Aborted).
10:26
2016-04-09T05:48:28.937+0300 [journal] SEVERE: Got signal: 6 (Aborted).
10:26
2016-04-13T05:39:33.041+0300 [journal] SEVERE: Got signal: 6 (Aborted).
e_zombie #
10:26
db.repairDatabase(); проходит ?
theuser #
10:27
e_zombie, каво???
e_zombie #
10:27
тормози нок.
10:28
погляди что у тебя в этот момент лог ротатор не отрабатывает два раза
10:28
этож сервисы ?
theuser #
10:28
Я просто каждое утро запускаю mongo и все продолжает работать само..
e_zombie #
10:30
смотри логи логротатора. у меня такая же фигня была. оказалось что в одно время запускается обрезкалогов и её корёжит на этом.
PavelGloba #
10:35
SomovIS_: о, точно. 2 раза target mac
freeseacher #
10:39
theuser, у меня тоже бывало монга падала
10:39
я спрятал ее под monit
theuser #
10:41
freeseacher, это, конечно, решение. А в каком окружении работал mongo? Не виртуалка случайно?
10:42
e_zombie, это который логротатор? У меня его, судя по размеру логфайлов в /srv/noc/log/ файлов, нету.
e_zombie #
10:43
нененене. это в /etc/logrotade.....
PavelGloba #
10:44
SomovIS_: короч, там endif не нужен
e_zombie #
10:45
народ. что это за https://pp.vk.me/c630625/v630625847/24b57/CZ27g_2n2Ag.jpg
theuser #
10:45
e_zombie, но то есть системная. Но там нет ни роатции логов mongo, ни логов noc. Кого должно корежить и от чего?
e_zombie #
10:45
у тебя логи монги куда падают ? /var/log/mongo /
theuser #
10:46
e_zombie, ну да
e_zombie #
10:47
/var/log/mongodb/mongod.log {
10:47
daily
10:47
rotate 30
10:47
compress
10:47
dateext
10:47
missingok
10:47
notifempty
10:47
sharedscripts
10:47
copytruncate
10:47
postrotate
10:47
/bin/kill -SIGUSR1 `cat /var/run/mongodb/mongod.pid 2> /dev/null` 2> /dev/null || true
10:47
и в этот момент её и может корёжить
10:47
я и говорю - ищи в логах точное время.
Dmitry1 #
11:13
dvolodin: TASK [node : Pull NOC] 00:52fatal: [TRK]: FAILED! => {"changed": false, "failed": true, "msg": "abort: error: Connection refused\n"}
dvolodin #
11:13
пропиши url башни правильно в настройках
Dmitry1 #
11:14
правильно прописан
11:18
ага, нужно было сделать "save" в 'Settings"
zi_rus #
11:28
Все, я самовыпиливаюсь, ухожу в телеграм
Dmitry1 #
11:43
так
11:43
TASK [influxdb : Wait for InfluxDB] 01:55fatal: [TRK]: FAILED! => {"changed": false, "elapsed": 15, "failed": true, "msg": "Timeout when waiting for 127.0.0.1:8086"}
e_zombie #
11:44
походу не стартовал инфлюкс
Dmitry1 #
11:44
если вручную, то стартует
e_zombie #
11:44
стартани и деплой ещё раз
11:44
Dmitry1 #
11:45
деплой его тушит
11:45
и не стартует
e_zombie #
11:45
может у судо нету правов на это. попробуй от пользователя ансибл
Dmitry1 #
11:46
да есть права
11:56
прибил полностью influxdb с базами и т.п.
11:56
поставил заново. вроде побежало
e_zombie #
12:01
я себе уже написал скрипт который сносит не только пакеты но и файлы баз и тд .
evyscr #
12:02
ынтерпрайз
e_zombie #
12:02
данунахуй.
12:03
это мои изрыги на самом деле чтобы в след раз не мучаться что я что то сломал.
GenKuzya #
12:24
Доброго времени суток всем!
e_zombie #
12:25
и вам не хворать.
GenKuzya #
12:25
не подскажите, в последнее время при поиске через Search на правом верхнем углу пишет Failed to search
e_zombie #
12:26
а оно вообще раньше работало ?
GenKuzya #
12:27
да раньше работала
12:27
в начале полностью работала
12:27
потом работала как то странно, иногда находит иногда нет
12:27
а сейчас вот такую ошибку даёт
12:28
в дебаг на браузере вижу следющее:
12:29
Failed to load resource: the server responded with a status of 500 (INTERNAL SERVER ERROR)
12:30
когда обрашается на /main/search
e_zombie #
12:30
кхм. возможно у тебя какие то данные в БД не попали. или наоборот.
GenKuzya #
12:36
выкинула
12:36
или кто то меня выкинул?!
Dmitry1 #
13:08
dvolodin: запустил NOC
13:08
2016-04-13 14:51:02,943 [activator] [RPC call from sae] activator.script([u'Juniper.JUNOS.get_version', {u'name': u'Juniper MX5-T', u'super_password': None, u'user': u'mitya', u'address': u'10.111.0.21', u'path': None, u'password': u'ghju6y', u'cli_protocol': u'ssh'}, {}, {u'platform': u'mx5-t', u'version': u'14.2R4.9', u'vendor': u'Juniper'}, {}, None])
13:08
2016-04-13 14:51:02,945 [activator] [RPC call from sae] activator.script([u'Cisco.IOS.get_uptime', {u'name': u'C3560-16', u'super_password': None, u'user': u'mitya', u'address': u'10.111.0.16', u'path': None, u'password': u'ghju6y', u'cli_protocol': u'ssh'}, {u'Network | LLDP': True, u'Network | CDP': True, u'Network | STP': True, u'DB | Interfaces': 30}, {u'platform': u'C3560', u'version': u'12.2(58)SE2', u'vendor': u'Cisco'}, {}, None])
13:08
2016-04-13 14:51:02,946 [activator] [RPC call from sae] activator.script([u'Cisco.IOS.get_uptime', {u'name': u'C3560-15', u'super_password': None, u'user': u'mitya', u'address': u'10.111.0.15', u'path': None, u'password': u'ghju6y', u'cli_protocol': u'ssh'}, {u'Network | LLDP': True, u'Network | CDP': True, u'Network | STP': True, u'DB | Interfaces': 54}, {u'platform': u'C3560', u'version': u'12.2(58)SE2', u'vendor': u'Cisco'}, {}, None])
13:08
2016-04-13 14:51:02,950 [noc.core.script.loader] Loading script Juniper.JUNOS.get_version
13:09
dvolodin: что ты там говорил, что при старте оно не долбится ?
13:10
заходим на Juniper
13:10
CPU states: 31.8% user, 0.0% nice, 60.6% system, 5.5% interrupt, 2.1% idle
13:10
Mem: 1168M Active, 79M Inact, 180M Wired, 374M Cache, 112M Buf, 182M Free
13:10
Swap: 2837M Total, 2837M Free
13:10
PID USERNAME THR PRI NICE SIZE RES STATE TIME WCPU COMMAND
13:10
99878 root 1 127 0 43116K 7344K RUN 0:06 26.95% ifinfo
13:10
99854 mitya 1 124 0 51796K 40872K RUN 0:05 19.70% cli
13:10
99855 root 1 4 0 52928K 4416K sbwait 0:03 11.94% mgd
13:10
99851 root 1 121 0 8432K 3436K select 0:03 11.42% sshd
13:10
Да нахуй такое надо !!!
bee26 #
14:12
dvolodin: как почту настроить?
dvolodin #
14:12
mailsender включи в башне
bee26 #
14:14
ок
14:14
xmpp будет?
dvolodin #
14:14
сделай
14:14
:)
bee26 #
14:16
а перенести со старого?
dvolodin #
15:05
ну можно портировать
15:05
оно должно достаточно прямолинейным быть
15:05
хотя, лучше найти xmpp либу для tornado
SomovIS_ #
15:11
dvolodin: http://tornado-rest-client.readthedocs.org/en/latest/_modules/tornado_rest_client/clients/slack.html
Tweet
Share this page
Share this page: Tweet