nocproject.org
06:25
dvolodin, нок забекапил монгу со всеми данными забил к хренам место на диске
06:27
да
06:27
он бекапит безрасбору
06:27
*безразбора
06:33
dvolodin, а еще багтрекер поломалит
06:34
рестартовал его
06:34
сейчас поднимется
06:35
доделываю проверку порогов - и сливаю ветки
06:39
dvolodin, про пороги, смотри, я предлагал из фм писать данные, прилетающие в трапах, в РМ
06:39
как это может столкнуться с тем что ты пороги на пробе проверяешь
06:39
и еще
06:41
dvolodin, может все-таки положим в базу оиды для дом? в общую таблицу интерфейсов дополнительными полями или отдельной табличкой
06:42
никак не столкнется
06:42
смотри
06:42
нужно просто графитовые данные залить в pmwriter
06:43
в lib/perf.py есть функция reporter
06:46
чего писать собрался?
06:48
dvolodin, ну там циска дом данные шлет когда порог пересечен
06:48
Nov 11 08:39:00: %SFF8472-5-THRESHOLD_VIOLATION: Te1/30: Rx power low alarm; Operating value: -40.0 dBm, Threshold value: -18.4 dBm.
06:49
про цпу тоже сообщения есть
07:41
кто у нас DLink DES-3200-10 эксплуатирует? дайте инфу как настроить сислог и снмп
07:43
"доделываю проверку порогов - и сливаю ветки" покайтесь, ибо грядёт!
07:44
e_zombie, пользуешься ноковским бекапом?
07:44
каяться придется тем, кто использует синхронизацию DNS
07:44
и всё?)
07:45
есть кто-нибудь, у кого sce8000?
07:45
вот-вот, кайтесь вместе :)
07:45
zi_rus: да вроде работает.
07:45
хотя не проверял
07:46
e_zombie, когда начнутся графики, нок данные в монгу пишет, а потом их же бекапит, у меня из-за этого место кончилось, пришлось бекап отключить
07:46
и сколько у тебя получилось?
07:47
у меня бакапы кладутся на отдельный раздел в 1.5Тб.
07:47
а основная бд - около 100 гигов.
07:47
разделы.
07:47
я надеюсь графики по дефолту не строятся для всех железок. а то будет как у опеннмпс - включил дискавери - и пиздос винту
07:48
zi_rus: собирай привязку к rocksdb
07:48
у тебя какой там рокс сейчас доступен в системе?
07:53
zi_rus: ну и чудно
07:53
07:53
собирай его в virtualenv
07:53
./bin/pip install Cython
07:54
./bin/pip install git+git://github.com/stephan-hof/pyrocksdb.git@v0.2.1
07:54
тьфу
07:54
./bin/pip install git+git://github.com/stephan-hof/pyrocksdb.git
07:54
вот так
07:56
а ты по-нормальному можешь его в зависимости добавить?
09:12
dvolodin, ты говоришь что пофиксил проблему с залипанием пробы, ты коммитил изменения? а то опять залипло
09:16
ту - коммитил
09:16
лови симптоматику, на которой зависает
09:41
e_zombie: у нас их штук 400, а что именно интересно?
09:42
все точно так-же как и на других
09:42
напиши как их сконфигурять слать сислог. и включить snmp на чтение для комьюнити
09:43
да.
09:43
снмп там вырублино
09:43
так я не делал
09:43
во морде только
09:44
enable snmp не катит?
09:44
а можешь конфига дать .
09:44
подозреваю что стоит ждать релиза графита чтобы это исправилось :)
09:45
09:45
походу это гдето тут правилось.
09:47
ну осталось немного :)
09:48
причем это не на всех профайлах так
09:50
когда запускаешь руками пишет nex run нормальный, после того как зкончил делаешь рефрешь и nex run улетает лет на 100 вперед. я не доживу.
09:50
в графите правилось
09:51
он самый и стоит
09:51
в смысле feature/graphite
09:54
проба худо-бедно threshold'ы определяет :)
09:56
e_zombie: для просто доступа по дефолтным коммунити public/privade enable snmp достаточно
09:57
кхм.
09:57
не знал.
09:57
счас проверю
09:57
09:58
шайтана .
09:58
спасибо.
10:36
11:07
e_zombie: "кто у нас DLink DES-3200-10 эксплуатирует? дайте инфу как настроить сислог и снмп"
11:07
snmp, в части только трапов
11:07
create snmp host <noc ip> v2c <noc community>
11:07
create snmp group <noc community> v2c read_view CommunityView notify_view CommunityView
11:07
create snmp community <noc community> view CommunityView read_only
11:11
e_zombie, а ты свою автодискавери в виде пируля оформить не хочешь?
11:24
dvolodin, в дебаге ничего не могу увидеть, но закономерность такая, если я просто рестартую нок, то проблема не проявляется, а если обновляю, то пока нок поднимется, проходит много больше времени. отваливаются ен все пробы, некоторые продолжают работать
13:20
event'ы на threshold'ы делаются
13:20
теперь классы лепим
13:20
завтра-послезавтра -- слияние веток
13:23
текущие патчи из develop не забудьте
13:23
а они никуда не денутся
13:24
в pagerless что-то терялось, не?
13:24
нет
13:24
а за графит колотите zi_rus, он подстрекатель
13:24
года три старался
13:25
да вы на меня молиться должны, я тут столько оттестировать, а то получилибы второй pagerless
13:25
и это правда
13:25
колотим, и молимся, колотим, и молимся
13:27
в конечном итоге всё одно - ебёмся и плачем...
13:29
будем надеяться, стараниями zi_rus в этот раз будет лучше
13:39
dvolodin, я не могу в дебаге пробы увидеть чего ей не хватает, можешь попробовать у тебя воспроизвести?
13:39
zi_rus: хочу. но это по времени много заёмет. а надо всё "вчера". у меня ваще 1 числа начинается опытная эксплуатация
13:39
а тут всё в раскоряк.
13:41
e_zombie, жаль, я хотел у себя в виде пируля заюзать. мы добавили в нок базовые станции для пингования, а их ставят и меняют адреса без нашего ведома, автомат нужен чтобы автоматически изменения вносил
13:41
ну я могу тебе дать свои наработкина баше. адаптируешь для своих - будет ок
13:41
во всяком случае новые хосты добавляются нормально
13:46
13:57
e_zombie, это не совсем кошерно, если уж портировать то по-нормальному, ты юзаешь nmap, а так надо icmp из нока, и snmp оттуда же
14:16
ну да нуда.
14:16
но это работает.
14:16
а теперь прикинь сколько мне времени понадобится чтобы ваще понять что такое питон и спраграммить аналог
14:16
питон простой
14:16
и на будущее пригодится
14:17
я не знал вообще ни одного языка
14:17
ключевое слово "вчера"
14:17
вчера ты уже сделал
14:17
ты сегодня
14:17
и можешь думать про завтра
14:17
а не завтра про вчера
14:17
я думаю.
14:18
и говорю что раньше чем через 2-3 недели ничего подобного я родить не смогу.
14:18
покажите чудо-скрипт
14:23
dvolodin, в ноке можно как-то рекурсивно дернуть именно самые нижние префиксы? то есть смотри, nested_prefix_set дергает все, с верху и до низу иерархии, а я хочу увидеть только те что в самом низу. иначе говоря, есть сеть /19 побита по /24, которые разбиты по /30, я хочу п
14:23
ередать /19 на вход и получить сет из /30 на выходе
14:24
я бы дернул каким-нибудь циклом
14:24
но глубина иерархии варьируется
14:24
dvolodin, ну а как?
14:24
у них parent не нулевой и сами они в parent'ах не ходят
14:25
хм
14:25
parent у всех ненулевой
14:26
кроме 0.0.0.0/0
14:26
но тебе нужны префиксы из диапазона и такие, что они не светятся ни у кого parent'ом
14:26
кроме 0/0
14:27
то есть нормальная тема это дергать nested_prefix_set кадого префикса
14:27
и если он ==0 то записывать в результат?
14:27
вроде нормальная тема
14:27
не хитровыдуманная
14:27
думаю реализуемо
14:28
evyscr, зажарится как-нибудь
14:28
у ВК такая уебанская внутренняя система ведения адресов
14:28
приходится наркоманить
14:29
и они захотели наши префиксы у себя видеть
14:34
подумайте о плохом
14:34
когда-нибудь я доберусь до ipam
14:36
Брюллов-второй, "Последний день нока"
14:38
dvolodin, нок так л2тп и не рисует
14:48
если бы по оиду ничего не было, капабилиты бы ен сработал, а если он есть но отдает ноль, то нок все равно должен создать метрику с нулевыми значениями
14:48
dvolodin, а еще, говорят в девелопе работает репорт ipam > report > history, а у меня в графите он трейсит
14:49
ага, трейсит
14:49
поправлю
14:50
это audit trail переделаный
14:50
SQLQUERY="SELECT address from sa_managedobject where name not like 'wiping-%' group by address having count (address) > 1 order by address;"
14:50
интересный запрос.
14:50
у меня после чистки БД от дубляжей пропали трейсы на отчётах.
19:33
dvolodin, заценил тему с порогами
19:33
не жилец
19:34
надо доделывать
19:34
серьезно
19:35
dvolodin, тебе по пунктам?
19:35
смотри
19:36
1) ты генеришь ивент как?
19:36
сразу
19:36
это неправильно
19:36
так он будет алармить на каждый случайный всплеск
19:36
также в обратную сторону
19:39
если чуть просело, опять закроется аларм и поднимется обратно
19:39
кто тебе сказал такое?
19:40
event генерится только при смене состояния
19:40
а вот как себя будет вести alarm -- вполне себе настраивается
19:40
дык нет
19:40
я про это и говорю
19:41
ты генеришь ивент сразу
19:41
ивент это событие
19:41
а почему бы ему не быть сразу
19:41
ты же ему пороги задал
19:41
то что произошел какой-то всплеск означает просто всплеск
19:41
а надо подождать
19:42
заметить что проблема действительно сохраняется
19:42
19:42
;tknsq uhfabr
19:43
желтый график
19:43
я получил ивенты про то и про другое
19:43
это дискарды на порту
19:44
в плагине с трешолдами для кактуса эта тема учтена
19:44
дальше
19:44
2)
19:44
два трешолда подразумевает разных получателей уведомлений
19:45
фм этого не позволяет
19:45
нет
19:45
у тебя одна настройка
19:46
alarm raised/alarm cleared
19:46
и селектор
19:46
и вдогонку
19:46
про фм
19:46
ты говорил что нок затрахает кого угодно
19:46
вот только проблема
19:46
кстати, для борьбы с дребезгом можно еще один параметр ввести
19:46
количество повторов, необходимых для смены состояния
19:47
поставишь 2 или 3 -- перещелкнет состояние только если 2 или 3 раза проблема сохраняется
19:47
я не хочу чтобы нок трахал мне мозги, но хотел бы развернуть трахалку на того кто отвечает за конкретный вопрос
19:48
19:49
Warning Breach Duration
19:49
The amount of time the data source must be in breach of the threshold for a warning to be raised.
19:49
Breach Duration
19:49
The amount of time the data source must be in breach of the threshold for an alert to be raised.
19:50
и про нотификацию
19:50
Warning Notification List
19:50
You may specify choose a Notification List to receive Warnings for this Data Source
19:50
Alert Notification List
19:50
You may specify choose a Notification List to receive Alerts for this Data Source
19:50
смотри
19:50
я управляю железом
19:50
но
19:51
я снимаю графики по портам
19:51
ну они обозвали это breach duration
19:51
если где-то перегрузка, нотифицировать надо тех кто планирует сеть
19:51
а не эксплуатирует
19:51
а для температуры мне надо нотифицировать третьих лиц
19:52
это не в threshold'ах делать нужно
19:52
а в эскалациях
19:52
это комплексная проблема
19:52
но у тебя этого нет
19:52
а как жить если такая фича из-за кривых уведомлений будет на приколе
19:53
придумывать, как делать нормальные эскалации
19:53
у каждого трешолда
19:53
я просто указываю кого уведомлять
19:53
в самом трешолде или в шаблоне
19:53
там в принципе нет такой проблемы
19:53
там все хорошо
19:55
застрелишься
19:55
чего там хорошего-то
19:56
то что там оно работает
19:56
ты не отвлекайся
19:56
задача pm - тяфкнуть
19:56
если у тебя так шоколадно, рассказжи как это сделать
19:56
задача fm -- укусить за жопу виновного
19:56
ты виновного определяешь селектором
19:56
за трафик виноват планировщик
19:57
за температуру - кондейщик
19:57
за питание - энергетик
19:57
и тд
19:57
но по селектору
19:57
нок будет кусать меня
19:57
нахера?
19:58
мы бы хотели знать если что аварийное случилось
19:58
но не хотим заниматься маршрутизацией траблов
19:59
вопрос в механизме описания эскалаций
20:00
(кстати по брасам "./noc probeconfig --touch" помог, опять :( )
20:01
про нормальные нотификации тебе давно говорили
20:01
с этми и сейчас проблема
20:01
просто не так заметно
20:02
говорите как они должны выглядеть, будем думать
20:02
фильтр нужен
20:02
по классам алармов
20:02
это сразу половину вопросов снимает
20:02
и по трешолдам разделется нормально
20:08
20:16
еще кое-что по мнлочи хотел придраться
20:17
но пока эти нюансы разрулить надо
Share this page
Share this page: