nocproject.org
04:48
доработал вчера попингуйку на тему ложно-положительных срабатываний
04:59
ложно-положительные - устройство свалилось, попингуйка думает, что жива?
05:00
в 3:58 логгер ушел, но там никто не подавал признаков жизни
05:03
наоборот
05:03
устройство лежит
05:03
и вдруг внезапно признается живым
05:04
ну у меня пока как раз живые устройства помечены дохлыми...
05:04
парочка
05:12
dvolodin, будем наблюдать
05:15
чего-то SAE выдал аларм Ping failed
05:16
сразу после обновления
05:22
есть такая мысль, создать на форуме тему для обсуждения нового probe и графиков, обсудить, придти к окончательному варианту и создать issue на основе обсуждения
05:23
стоит так поступить или подождать, и все может поменяться?
05:32
видимо стоит подождать
05:55
народ, у меня такой вопрос
05:55
у меня в конфиге используется такая конструкция
05:55
fqdn_template = {{name}}-{{ interface|slugify }}-{{ IP|join:"-" }}.{%% if vrf.name == "Global" %%}a.ru{%% else %%}{{ vrf.name }}{%% endif %%}
05:56
после обновления джанго, она перестала работать
05:56
я думал что там что-то поменяли в конструкции IF, но никаких изменений на этот счет в release notes я не нашел
05:57
(проблема в том, что для отдискавереных адресов не заполняется та часть, что начинается с IF)
05:58
я тут подумал, а может дело не в IF, а в том что я неправильно пытаюсь вытащить название vrf?
05:59
напрмер как это стало с письмами про надискаверенные префиксы/адреса
06:01
может мне кто-нибудь подсказать vrf.name это правильная конструкция или ее надо поменять, я в коде нока ничег оне понимаю чтобы подсмотреть правильный вариант
06:20
ну вроде да, vrf.name, есть такое в модели (ip/models/vrf.py)
06:22
а Global - от точно Global, не default?
06:22
точно глобал, раньше работало
06:23
блин, даже не знаю тогда
06:24
хм, попробую провести эксперимент, уберу ИФ
06:25
вот я тоже спросить хотел - может вообще шаблоны поломались?
06:30
ну в общем, эксперимент подтвердил
06:30
fqdn_template = {{name}}-{{ interface|slugify }}-{{ IP|join:"-" }}.{{vrf.name}}
06:30
такой шаблон не заполняет vrf name
06:36
кто бы еще мог посмотреть
06:54
после апдейта CM конфиги не кажет
06:58
конфиги дергает, но не кажет в вебе
07:01
кажет
07:01
может права на файлы поломались?
07:03
-rw------- 1 noc noc
07:04
тогда хз
07:04
а ошибка то какая
07:07
нет ошибки, прост опусто
07:09
снова про шаблоны: не вижу вообще, чтобы информация о vrf передавалась в контекст... может так и надо, конечно, только как оно раньше работало тогда
07:14
который лог сомтреть
07:46
ничгео криминального
07:48
все конфиги или конкретный?
07:57
Dmitry1, я смотрю ты мак флапам правила нарисовал
07:57
вроде да. нужно протестировать
07:57
напомни, как реклассифицицировать можно это безобразие
08:05
Dmitry1,
NOC-792,
NOC-793 сделай по возможности, логи просто загажены этим
08:09
аларм не нужен, только классифицировать и подавить, лучше всего прямо в вендорной ветке, CGMP это цисковский протокол
09:35
zi_rus: чисто технически, инфраструктура для сбора данных есть
09:36
latency/jitter до важных ресурсов, счетчики по snmp?
09:38
ну если оно еще не устарело, остается только сложить это в БД и прикрутить 1) графики 2) триггеры
09:38
триггеры на предельное значение и на изменение
09:39
даже не одна, а две производных
09:40
счетчик дает трафик, первая производная - скорость, вторая - изменение скорости
09:40
(если вдруг на линке пропал трафик, это повод беспокоиться
09:40
)
09:40
вот именно с укладкой в бд проблема
09:41
я не хочу заранее подкладывать те же грабли, что и у zabbix, crf;tv
09:41
скажем
09:42
и что там за проблемы?
09:44
все кладется в одну таблицу
09:44
либо partitioned table надо делать, либо фиг сотрешь старые данные
09:44
а я хочу хранить данные в монге, в нее запись в 4 раза быстрее, чем в постгрес
09:45
ну, есть еще rrd
09:49
dvolodin, ладно, это все лирика, ты не скоро еще за графики возьмешься, давай лучше о насущном
09:49
fqdn_template
09:50
нафиг rrd
09:50
ошибка детства
09:50
просьба аргументировать. (не то
09:50
, чтобы я был за...)
09:50
{{vrf.name}} - не возвращает ничего для применения в темплейте, с учетом того что раньше оно работало, делаем вывод что что-то изменилось
09:51
зранение в файлах и загрубление
09:51
для детектора аномалий rrd не пойдет
09:52
я пока склоняюсь к комбинированной схеме
09:53
сырые данные в пределах окна, затем несколько уровней аггрегации
09:54
только не сильно агрегируй, полугодовой график в какти выглядит как гистограмма
09:54
с суточным максимальным уровнем
09:55
я хочу при аггрегации хранить по каждому интервалу минимум, максимум и среднее
09:56
проблема с минимумом
09:56
если на линке были работы, то минимум будет на нуле
09:56
но это не настоящий минимум
09:57
можно считать без нулей
09:57
а вместо среднего - 95% персентиль
09:57
не суть важно
09:58
важно то, что у нас должны быть сначала скалярные значения
09:58
в потом уже в аггрегированной области - векторы
09:59
а вот нужно ли вводить более одного уровня аггрегации - вопрос еще
09:59
что у нас с попингуйкой?
09:59
10:02
dvolodin, все понятно или нужны еще данные?
10:09
1 пофиксили
10:09
2 должо было пофикситься утренним фиксом
10:09
1 разве? уже?
10:10
тогда буду наблюдать
10:10
завтра подтвержу
10:10
а что на счет 3?
10:21
таки какие есть предложения по вправливанию мозгов монге?
10:21
я опять вопролся в Invalid bson size
10:26
что нужно перенести из нутров нока чтоб это запустить на другом компе и базу не потерять ?
10:26
zi_rus: на SAE ?
10:27
это я уберу, да
10:27
да
10:27
dvolodin, ну вот уберешь, тогда можно считать что список проблем, найденых мной, исчерпан, надо будет у других спрашивать
10:28
не знаю, все молчат
10:29
ил проще ка клонировать нок на другой комп ?)
10:41
dvolodin, а давай почини управление пользователями ?
10:41
10:48
evyscr: ну да, systemd делает ровно то же, что и noc-launcher
10:48
и SMF в соляре
10:51
поттеринг делает очередной клон smf и launchd из макос
10:51
непонятно только, чего народ бесится
10:52
dvolodin, давай релиз
10:53
хм. нашел. ОШИБКА: нулевое значение в колонке "password" нарушает ограничение NOT NULL
10:57
миграция какая то забыта ?
10:58
баги пофиксить, фичи отложить и зарелизить
10:58
evyscr, кинь на пасту
10:58
`kk: кого?-)
10:59
"LSB: noc initscript"
11:00
11:55 < dvolodin> нафиг rrd
11:01
не соглашусь типа
11:01
попингуйку готов протестить
11:01
у меня да
11:02
у ее уже неделю гоняю
11:02
а я пока заббикс настраивал
11:02
ну а что делать
11:02
нужно же нагиос на пенсию отправить наконец
11:02
evyscr, да. посмотрел пасту.
11:03
кстати, а в инвентори какие-то были изменения, типа сбора серийников
11:03
?
11:03
нет
11:03
карта появилась, если еще не в курсе
11:05
`kk: я таки не понимаю, что от меня хотят.-) systemd подхватил дефолтный инитскрипт, сцопированный из /opt/noc/share/linux/lsb/init.d/
11:06
да. я понял это. подумал, что ты написал для systemd. потом пасту посмотрел... )
11:08
автодискавери вроде какое-то
11:09
давненько не обновлялся :)
11:09
как вообще можно не на апстриме сидеть
11:10
он часто ломается )
11:11
но ты же согласился потестировать, значит сломанный он тебя не пугает
11:12
а префиксы в нотификации починил?
11:12
ну я просто с заббиксом закончил
11:20
<class 'bson.errors.InvalidStringData'>
11:20
strings in documents must be valid UTF-8
11:22
get_interfaces для huawei 5.30 (S3328 V100R003C00SPC301) сломан
11:23
или это мои патчи уже хз
11:26
=\
11:27
Huawei.VRP.get_interfaces сашол с ума
11:49
добрый день якажите при попытке изменить пользователя в ноку вылазиет вот такая фигня
http://pastebin.com/CGnQhRFS типа поле пароль пустое! но поле заполнено!
11:49
как клонировать нок на другой комп, что переносить ?)
12:05
а что вы его между серверами гоняете?
12:06
у меня нок с такаксом вместе проц и на 1% не грузят
12:06
он может калькуляторе работать
12:11
или у тебя наносервер, или я не знаю
12:12
LA=3.5-4, 2к устройств, 8 активаторов
12:13
виртуалка, где это счастье живет, 4 ядра, 4 гига памяти
12:13
у меня на этой же виртуалке постгри с монгой и нжинкс
12:13
4 ядра, 8 гигов
12:14
только активатор один
12:14
зачем нужно несколько ?
12:14
8 потоков активаторов равномеро прогружают все ядра, быстрее выполняют задачи. Но сейчас похоже надо будет еще 8 добавить. Или число скрипт-тредов на активатор увеличить
12:15
хотя я мож чего не понимаю
12:16
у меня max_scripts = 5000
12:16
вроде не падает ;)
12:16
щ_0
12:16
о_0
12:16
вот так то есть
12:18
а чо ?
12:18
это много или мало ?
12:19
много, как по мне...
12:19
ну у меня комбинация похожая, только железок 400
12:19
5 тыщ скриптов параллельно...
12:19
load averages: 0.06, 0.04, 0.06
12:20
ну пока у меня было 700 железок - все тоже было хорошо
12:20
так что изменилось?
12:21
mikevlz, ты обновись, система с последними коммитами много меньше стала нагружать
12:21
столо 2 тысячи железок. На каждой выполняется дискавери, съем конфига, версии и прочего...
12:21
последние - это после "вчера утром"?
12:21
и у меня дискавери и прочее бегают
12:21
последние, это когда пинг сокет закоммитили
12:22
пинг сокет у меня есть уже
12:22
я вчера утром обновлял
12:22
там багов пофиксили много
12:22
сегодня надо уже
12:22
вечерком, если скучно будет - обновлю
12:23
и что как были изменения в ЛА приобновлении на новую пинговалку?
12:23
не-а
12:24
стартует с LA 7-8, потом устаканивается на 3.5-4
12:24
странно, у меня на 2 процента нагрузка на цпу упала
12:25
12:25
четко видно на прошлой неделе
12:26
ну да
12:26
видно
12:26
дискавери на всех устройствах включено?
12:26
да
12:27
это только пинговалка изменилась
12:27
ну тогда не знаю, что я делаю не так =)
12:27
mikevlz, а у тебя какие параметры стояли?
12:27
я уже увеличил периоды
12:28
не, дискаверей
12:28
а пинги - как есть
12:28
просто может у тебя был период раз в полчаса
12:28
а тут апо дефолту 1 минутв
12:28
хз, пинг был дефолтный
12:29
5 минут интервал
12:29
вроде
12:31
там кстати еще были изменения
12:32
тебе просто проапдейтиться надо
12:32
я ж говорю, что вчера апгрейдил
12:32
dvolodin, пинговалка вроде работает, что дальше?
12:32
mikevlz, вчера во сколько?
12:34
там был коммит как раз в это время, возможно ты его не захватил
12:35
mikevlz, кстати, знаешь что еще, если у тебя в логи валятся трейсы, это сильно грузит систему
12:35
видел график, который я скинул
12:36
там в начале неадекватно высокая загрузка
12:36
это у меня трейсы валились
12:40
вроде нету.
12:41
я вчера трейс на FDP_discovery подебил
12:41
костылем
12:41
а мой
NOC-779 уже с 17.10.2012 висит
12:41
по хуавею
12:54
acid232, ты
NOC-1 видел? вот и не удивляйся
13:01
а расставлялку объектов на карте не запилили еще?
13:04
только ручным приводом
13:09
вот бы еще на карте сделать абстрактные объекты, типа облака - с нашей стороны порт такой то - а линк уходит в облако с описанием
13:19
а как карту увидеть
14:36
ну согласись что есть линки, где нельзя добавить ответный объект
14:36
при том подписать их - хотелось бы
14:36
и статус показывать
15:10
а если в сиснейм объекта есть пробел и скрипт трейсбечит на этом - это ошибка или нет ?
15:24
это issue
15:24
а уж та пускай думают
15:24
*там
Share this page
Share this page: