About Forum Blogs NOC Docs Downloads KB Issues Code CI Registration

nocproject.org

#nocproject.org at irc.freenode.net log.
Back to nocproject.org Back to IRC log index
Date: 31.01.2013
dvolodin #
04:40
zi_rus: доработал я пинги, теперь они берутся из managed object profile
freeseacher #
04:41
о!
04:41
это хорошо
04:41
дима покоммить там мои патчи :)
dvolodin #
04:42
с юзерами?
freeseacher #
04:42
да
04:43
и с индексами
04:43
хотя думаю там надо код как то переписать. что бы в другой индекс попадало
dvolodin #
04:56
NOC-920 закоммитил
mikevlz #
05:01
dvolodin: Дим, у меня стабильно роутеры с пинговалкой в ping_failed висят...
dvolodin #
05:02
а они живые?
mikevlz #
05:03
угу
05:03
очень живые
05:03
буде они дохлые, я бы не парился.
dvolodin #
05:06
с самыми последними коммитами?
mikevlz #
05:07
|NOC|0.7(4)r7469|
dvolodin #
05:08
докати до конца все
mikevlz #
05:08
хорошо, посмотрю...
dvolodin #
05:08
попробуй tcpdump'ом половить для какого-нибудь несчастного роутера
05:08
и в логи активатора смотри
mikevlz #
05:10
у меня впечатление, что активаторы тупо не успевают
05:10
ладно, накачу, посмотрю...
dvolodin #
05:10
чего не успевают?
05:10
пинговать?
mikevlz #
05:11
а ваще нифига не успевают
dvolodin #
05:11
с трудом в это верю
05:11
сделай их побольше
mikevlz #
05:11
8 активаторов, 60 скриптов на активатор
dvolodin #
05:12
это немного
05:12
в мониторе посмотри, чем они заняты
mikevlz #
05:13
а монитор говорит Failed to get data
dvolodin #
05:14
в логах SAE нет ничего насчет SAE is overloaded by MRT scheduling
mikevlz #
05:14
есть, куча
dvolodin #
05:16
вот тебе и ответ на главный вопрос
mikevlz #
05:17
поднимать лимит скриптов на активатор?
dvolodin #
05:17
нет
05:17
таблицу sa_maptask посмотри
mikevlz #
05:17
и?
dvolodin #
05:17
как минимум - reiende, vacuüm и analyze
05:17
reindex
mikevlz #
05:17
понял
dvolodin #
05:17
или совсем truncate
05:18
SAE раз в секунду решает, какие задачи стартовать
05:18
а у тебя выборка из этой таблицы идет больше секунды
mikevlz #
05:22
ERROR: deadlock detected
05:22
DETAIL: Process 58174 waits for AccessExclusiveLock on relation 30751 of database 29489; blocked by process 58097.
05:22
Process 58097 waits for RowExclusiveLock on relation 30742 of database 29489; blocked by process 58174.
05:22
потому и ждет... :(
05:25
не помогли reindex, vacuum analyze
dvolodin #
05:25
останови процессы и сделай truncate table
mikevlz #
05:28
2013-01-31 09:33:28,619 SAE is overloaded by MRT scheduling (took 1.17548s)
05:28
после обрезки таблицы
05:28
уже три таких строки в логе
dvolodin #
05:28
vacuum full analyze sa_maptask;
05:29
renindex table sa_maptask;
mikevlz #
05:31
нифига
05:32
cat noc-sae.log | grep overload | wc -l
05:32
16
05:32
за минуту
05:32
медленный постгрес?
06:57
dvolodin: ну вобщем-то ошибка осталась, но в целом стало пободрее
06:57
все пропинговалось, монитор показывает более радужную картину.
06:58
раньше фейлилось около 50% скриптов, ща 10к отработано 900 зафейлено
zi_rus #
06:58
mikevlz, и как LA помньше стал?
mikevlz #
06:58
НИИ ХУЯ =)
06:59
вот ща LA 9.26/8.3/7.48
zi_rus #
07:00
как можно так насиловать сервер
mikevlz #
07:00
при этом за верхнюю строчку дерутся Mongo, python,Idle, postgres
07:00
он железный, пущай пашет
zi_rus #
07:00
монга как раз трейсы складывает, фикси дальше
mikevlz #
07:01
в смысле "трейсы складывает"
07:01
ты про collect_crashinfo?
zi_rus #
07:02
да
07:05
это может быть не скриптовый креш и системный
07:05
они сильнее грузят
07:05
потому что валятся постоянно, а не только на работе скрипта
07:05
надо логи смотреть
veng #
07:22
Подскажите, что такое ID discovery?
mikevlz #
07:23
великое древнее колдунство
07:23
в базу сейчас собираются интерфейсы железок. Интерфейсы можно соединять
07:24
вот чтоб руками не щелкамть все, придумано переделать topology_discovery. В разных способах обнаржуения топологии сосед определяется уникальным идентификатором
07:24
это может быть набор маков, хостнейм, просто идентификатор какой-то...
veng #
07:25
вот я понимаю lldp, stp, и проч... а ID - это что за идентификатор такой? каким скриптом оно дергается?
mikevlz #
07:26
вот все эти идентификаторы собирает ID discovery, кладет в базу, а потом lldp_discovery, например, использует это для определения кем в базе является сосед
07:26
Generic.get_discovery_id или как-то так скрипт зовется
07:26
он уже сам смотрит, какие скрипты есть у профиля, дергает их
veng #
07:28
фигасе философия!
07:28
Это надо покурить детальнее. Спасибо
zi_rus #
07:29
попроси у разрабов, может дадут дунуть их волшебной травы
07:30
Dmitry1, ты тут? не хочешь NOC-923 еще раз попробовать
dvolodin #
07:35
не дадим
07:35
трава засыпана снегом
07:39
zi_rus: ты уже попробовал на вкус попингуйку с привязкой к managed object profile
zi_rus #
07:39
dvolodin, попробовал но еще не проверял
dvolodin #
07:40
надо проверять
07:40
там для разных категорий железок разный интервал для пинга можно задавать
zi_rus #
07:41
dvolodin, меня тут заволновал еще один вопрос, у тебя в get_version реализован snmp (для циски), но в запускаю дебаг и он лезет в кли
07:43
это несколько напрягает, очень хочется кошерный snmp без консоли, на сколько это возможно
07:43
я даже NOC-923 сделал для этого :)
dvolodin #
07:43
ключик -c-
zi_rus #
07:43
буду искать как реп и стп по snmp можно вытащить
veng #
07:43
а в Managed Object Profile поле Down severity работает или пока для красоты? Я так понимаю это приоритет для alarm'ов при падении интерфейса. Но что-то как-то оно не функционирует
zi_rus #
07:44
dvolodin, о точно, это я забыл, я рассчитывал что он сам поймет какой вариант использовать
07:46
dvolodin, тогда еще такой use-case, в профиле МО можно задать различные параметры, но иногда их хочется изменить, например можно задать разный shape, но иногда хочется снять с мониторинга пингами какую-то железку, приходится рисовать отдельный профиль, а если
07:46
у меня свичи и роутеры идут разными профилями, то приходится их 4 делать
07:47
или например дополнительный тип дискавери включить на одной железке, это под нее одну целый профиль приходится рисовать
07:49
в общем нужно галочкам добавить переключатель, галочкой отмечаешь учитывать или нет значение переключателя, а сам переключатель определяет on/off для метода дискавери
07:49
это в параметрах Мо
07:49
а в профиле МО можно оставить галочки
07:50
или для красоты и порядка галочки тоже поменять на переключатели
dvolodin #
10:20
zi_rus: жто разумно, но делать надо не на django'вской админке
zi_rus #
10:21
это и ежу понятно, что если делать то сразу в ext
10:21
чтобы не перегружать интерфейс, можно как с правами у пользователей, сделать этот радел сворачмваемым
dvolodin #
10:22
я думаю - табами
10:23
можно и сворачиваемыми группами
mikevlz #
10:24
аккордеон
10:26
клева
dvolodin #
10:26
да хоть баян
mikevlz #
10:29
dvolodin: а self.snmp() как себя поведет, если его на таблицу натравить?
10:29
в скриптах SA
dvolodin #
10:34
смотря какой oid дать
mikevlz #
10:34
iftable, например.
zi_rus #
10:35
dvolodin, смотрел статьи на хабре, я тут ссылки кидал?
mikevlz #
10:36
я просто get_fqdn сделал на SNMP, теперь на этом этапе не тупит. Нашел MIB Reference для Brocade.IronWare, думаю весь get_fdp_neighbors довести до полного SNMP, може еще что из скриптов
Unbeerable #
10:37
чота у меня щас из-за света полсети моргнуло минут на двадцать, и теперь машина с ноком показывает LA > 30
10:38
и я даже пока не могу посмотреть в чём дело
zi_rus #
10:40
Unbeerable, видимо стартанули какие-то джобы, проверяют что происходит
10:40
а может алармов насыпалось и классификатор их разгребает
Unbeerable #
10:40
в том и дело, что алармы вроде уже даже закрылись
10:40
перезапустил, взлетело
dvolodin #
10:41
а что проц жрало?
zi_rus #
10:42
dvolodin, про snmp, дебаг может и работает только меня не обманешь, запускаю скрипт в интерфейсе, и вижу в такакс аккаунтинге, что эта зараза все равно в консоль лазает
10:42
а пардон, не то проверял
10:42
в том скрипте еще нет снмп
Unbeerable #
10:42
уже непонятно
zi_rus #
10:42
:(
Unbeerable #
10:42
после перезапуска sae выдал в лог кучу get_ip_discovery
10:43
с фэйлом
10:43
SAE is overloaded by MRT scheduling
zi_rus #
10:45
я знаю куда можно пуш прикрутить
10:45
sa > monitor > scripts
10:45
да и pools тоже
10:46
и обновлять хотя бы раз в секунду
10:47
народ, вопрос всем, если у меня процессор 4 ядра, но включен HT, и система видит 8 потоков, сколько активаторов будет лучше запускать?
10:47
4, как я делаю сейчас, или лучше поднять до 8
mikevlz #
11:29
бггг... техник пришел к сотруднице домой посмотреть, чо не так с Iptv, переобжал коннектор, появились не все каналы. 1-й, еще три каких-то и "Русская ночь"...
11:29
причем "Русская ночь" раньше не показывала...
11:29
как обжимать, чтоб порнуха появилась - не рассказывает
_4ePTeHok #
12:58
скажите - построение топологии по макам меняли или нет?
12:59
в то из менбшки пункт убрали, а по линкам не видать чтобы находило что то маками
zi_rus #
13:16
_4ePTeHok, какой менюшки? все на месте
_4ePTeHok #
13:16
была пепяка - тополоджи дискавери
13:16
в sa-tasks
zi_rus #
13:19
ее уж вывилил давно
13:19
*выпилили
13:19
давно-давно
13:36
а кто-нибудь знает, что такое добавилось в ноке примерно вчера, что у меня по расписанию раз в час строго между 5 и 10 минутами резко подскакивает загрузка CPU?
13:39
в логах криминала не вижу
_4ePTeHok #
15:22
дык по макам сейчас что то ищется?)
mikevlz|2 #
17:06
всем привет
17:06
живые есть?
17:07
http://ваш_сервермонги:28017
17:08
noc.noc.schedules.fm.correlator у меня 90% запросов. Индексов нет, видимо на этом монга грузится нещадно
17:16
о
17:16
вот он
17:16
dvolodin: noc.noc.schedules.fm.correlator у меня 90% запросов. Индексов нет, видимо на этом монга грузится нещадно
17:17
8889 mongodb 33 109 0 8276M 333M CPU2 2 134:45 76.86% mongod
17:17
пообновлял интерфейс админа монги, изредка write lock мелькает, но не думаю, что в этом дело
17:18
помочь чем делу можно?
dvolodin #
19:24
индексы там желательны, ла
Tweet
Share this page
Share this page: Tweet