About Forum Blogs NOC Docs Downloads KB Issues Code CI Registration

nocproject.org

#nocproject.org at irc.freenode.net log.
Back to nocproject.org Back to IRC log index
Date: 19.08.2011
gnu-linux #
03:58
dvolodin: немогу добавить новый объект http://pastie.org/2394900
dvolodin #
03:59
а дальше что?
gnu-linux #
03:59
Также у меня слители все Schedules- отключил...
03:59
дальше http://pastie.org/2394909
dvolodin #
04:09
посмотрю
04:09
сд
04:09
е
04:09

04:09

04:09
сделай issue
gnu-linux #
04:09
че это?
04:10
да это вчера или позавчера с обновлением приплыло... надо глянуть свежий код..
inoyat_kayumov #
04:21
доброго всем
04:22
локально-глобальную хотелку про брасы куда - в issue или в arch?
gnu-linux #
04:25
Какого доброго? У нас опять гроза опять пи*ц...
dvolodin #
04:32
что за хотелка?
inoyat_kayumov #
04:32
пишу issue
04:32
если коротко - хочется аларм по резкому снижению кол-ва юзверей на брасе
dvolodin #
04:34
да, я понял
04:34
делали мы такое раньше, по макам на свичах агрегации
inoyat_kayumov #
04:34
pppoe
04:34
смешано - адсл и эзернет
dvolodin #
04:35
есть два пути решения - быстрый и правильный
04:35
:)
04:35
про какой рассказать ;)
inoyat_kayumov #
04:35
я issue допишу - туда
04:35
рассказать и пообсуждать
04:43
http://redmine.nocproject.org/issues/234
freeseacher #
04:46
inoyat_kayumov, мы считаем падение на 700 абонов на брасе алармом
04:46
вне зависимости от влана
inoyat_kayumov #
04:52
а если в влане всего 100 в пике?
freeseacher #
04:53
тогда нужен алгоритм с baseline мониторингом
04:53
иначе ложные сработки
inoyat_kayumov #
04:53
ну их вручную можно разобрать и закрыть аларм
04:55
_сейчас_ - вообще "глазками в rrd" - и вербальный аларм :(
freeseacher #
04:58
в cacti в thold есть baseline мониторинг.
inoyat_kayumov #
05:01
на 1000+ вланах трезольд?
freeseacher #
05:02
вы сейчас 1000+ вланов глазами просматривете :) ?
05:03
весьма трудолюбиво
inoyat_kayumov #
05:03
одним rrd
05:03
слоями каждый влан видно
dvolodin #
05:47
inoyat_kayumov: По issue #234
05:47
Есть два известных мне пути решения проблемы
inoyat_kayumov #
05:48
быстрый и правильный? :)
dvolodin #
05:48
Быстрый и неправильный уже озвучили - threshold monitoring по SNMP
05:48
NOC'овский PM поддерживает 4 вида границ
05:48
low error, low warning, high warning и high error
05:49
действительно можно снимать количество юзеров по SNMP и отслеживать границы
05:49
красивый, быстрый, и в корне неправильный метод Ж)
inoyat_kayumov #
05:49
я PM еще не смотрел почти - только из тех примеров что на форуме были
05:51
dvolodin: а кстати как №234 классифицировать - как задачу для PM или все-таки для FM?
dvolodin #
05:58
это задача PM
05:59
в том числе и сгенерировать event по выходу за threshold' s
05:59
так вот -- метод в корне неправильный
05:59
догадайтесь почему ;)
inoyat_kayumov #
06:05
не знаю. а почему не для фаулт? я там в issue написал цепочку - причина падения лежит где-то на свитче/брасе
dvolodin #
06:09
задача PM отловить проблему и сообщить FM
06:10
так вот, неправильный он потому, что нормальная загрузка BRAS'а неравномерна и меняется со временем
06:10
и перепад между ЧНН и ночным временем может быть в 1.5-2 раза
06:11
Например, 5k юзеров вечером и 3k ночью
06:12
если вечером случится авария и 1k юзеров слетит с BRAS'а, то останется 4k, что все равно больше нижней ночной границы
06:13
это как раз одна из причин того, что применение активных систем мониторинга в лоб держится в существенной мере на самовнушении и закрывании глаз на очевидные проблемы :) Пришлось даже статейку набросать на эту тему
06:14
Так вот, есть как минимум один известный мне более точный метод
06:14
условно называется anomaly detection
06:15
детали зависят от реализации и у него тоже есть куча граничных условий
06:15
суть примерно такая
06:16
по временному ряду по одному из алгоритмов предсказывается следующее значение
inoyat_kayumov #
06:16
статью я читал - очень познавательно
dvolodin #
06:16
если фактическое значение сильно расходится с предсказанным, значит где-то нас накололи, происходит жопа, а мы не в курсе
06:17
один из примеров таких функций - фильтры Калмана
06:18
если опустить долгую и нудную математику то все просто
06:19
график загрузки BRAS - периодическая функция, похожая на синусоиду с одним или двумя максимумами (утро - вечер), небольшим провалом днем и падением ночью
06:19
изменения обычно незначительны
06:19
он плавно падает и плавно растет
06:19
за исключением аварий
06:20
такой же подход применим, скажем, к загрузке межоператорских стыков
06:21
и точно та же проблема - в онлайн-проектах
06:21
скажем, если у сайта трафик резко упал на гигабит - то где-то жопа
06:22
но днем этот гиг - не так много
06:22
но суслик есть
06:23
короче, вы раскрыли страшную тайну
06:23
текущий PM в NOC нужен был исключительно как коллектор данных для Traffic Anomaly Detection
inoyat_kayumov #
06:24
тут коллеги высказывают мысль про небольшое "упрощение" - период дискретности не сутки а час
dvolodin #
06:25
частоту дискретизации имеет смысл ставить не более одной минуты
06:25
тогда в течении 2-3 минут можно будет поймать жопу
06:26
считать разницу между прошлым и нынешним значением настоятельно не советую
06:26
;)
inoyat_kayumov #
06:26
почему?
dvolodin #
06:26
входной сигнал зашумлен
06:27
либо сначала срезайте шумы
inoyat_kayumov #
06:27
да - мы к такому же выводу пришли
dvolodin #
06:28
насчет T.A.D я так скажу - я его еще допилю
06:28
а вот пойдет ли он в репо - пока вопрос
inoyat_kayumov #
06:28
мы с вами как-то уже обсуждали вопрос платного функционала
dvolodin #
06:29
TAD - возможно пойдет как платный
06:29
или как отдельный продукт вообще
inoyat_kayumov #
06:33
хорошо. если не углубляться пока в финансовые вопросы - конкретно по "234 будет какое-то решение? или ее закрыть?
dvolodin #
06:34
пусть висит пока
06:34
может кто придумает не менее изящное и стабильно работающее решение
07:02
gnu-linux: Объект SAE почто удалил?
ufir #
07:41
здравствуйте. добавил пару десятков каталистов и роутеров в managed objects. пытаюсь получить конфиги - у части get_config отработал, у части - нет. в /var/messages "Aug 19 11:34:26 kovreng python: abrt: detected unhandled Python exception in manage.py"
07:41
куда копать
07:42
при debug_scripts теперь вываливаются ошибки на вообще все объекты managed
07:42
File "/opt/noc/contrib/lib/django/db/backends/postgresql_psycopg2/base.py", line 140, in _cursor
07:42
self.connection = Database.connect(**conn_params)
07:42
psycopg2.OperationalError: FATAL: Ident authentication failed for user "noc"
`kk #
07:49
Ident authentication failed for user "noc" - не может соедениться с базой под этим юзером
ufir #
07:49
debug_script надо делать не из под рута ?
`kk #
07:50
логин пароль для постгреса правильные прописаны? проверь
ufir #
07:51
да в том-то и дело, что сейчас я опять запустил скрипт. он прожевал все устройства кроме последних добавленных
07:52
2011-08-19 11:48:24,666 MRT task=21/330 object=cct01-koz-oze(10.200.200.47) script=Cisco.IOS.get_config status=completed
07:52
2011-08-19 11:48:25,652 MRT task=21/363 object=a-ab3cs2(10.200.200.4) script=Cisco.IOS.get_config status=completed
07:52
2011-08-19 11:50:12,272 script(Cisco.IOS.get_config,crt01-orshanka,**{}) failed: Cancelled
07:52
2011-08-19 11:50:12,278 MRT task=21/318 object=crt01-orshanka(192.168.65.37) script=Cisco.IOS.get_config status=failed code=20 error=Cancelled
07:52
т.е. пароль правильный
07:54
проверил роутеры которые нормально отработали - все они заведены аналогично
07:56
все, отбой. на этих древних роутерах не был прописан айпишник нового радиуса, и они не могла авторизоваться
_4ePTeHok #
08:02
=)
dvolodin #
08:09
ufir: debug-script лучше делать из под noc
`kk #
08:13
оффтопик, но всё же. коллеги, от чего tcp ходить в килобитах а udp нормально в мегабайтах. никто не сталкивался ?
dvolodin #
08:17
congestion control срабатывает
08:17
packet loss может быть высокий, окно схлопывается
08:17
потери померяй
freeseacher #
08:57
господа новости почитал я. может на pypy перейти :) ? аццкое увеличение скорости обещают
08:57
http://speed.pypy.org/
gnu-linux #
09:11
dvolodin: a что объект SAE нельзя переименовать в NOC для красоты :)
dvolodin #
09:15
нельзя
09:15
в NOC есть не только SAE :)
09:15
freeseacher: памяти немерянно ест он
09:16
да и ускорять ему нечего почти
09:16
хотя, классификатор у нас и так компирирует правила в native python
09:16
если еще и JIT заработает, будет забавно
09:16
:)
09:17
хотя, сдается мне, что бобик просто сдохнет :)
10:30
отловил memory leak в корреляторе
10:31
все тот же reset_query() для django
10:31
заодно с удивлением узнал, что коррелятор на каждую аварию лезет в постгрес
10:31
век живи, век учись, блин
gnu-linux #
10:33
strace надо юзать...
dvolodin #
10:33
не поможет
10:34
я objgraph использовал
gnu-linux #
10:34
Поможет, он файл библиотеки постгреса прочитает перед тем как туда лазить.Когда запланирован релиз 0.7
dvolodin #
10:34
влепил import pdb; pdb.set_trace() в основном цикле демона
10:36
ну полезет, ему туда положено лезть
10:52
В r4476 отучил от вредной привычки
10:57
Релиз - в районе месяца, наверное
10:57
надо вылизать интерфейс и набор правил
10:57
написать описание, как работает FM
10:58
и, будет хорошо, если вы будете более активно постить на сторонние ресурсы статьи и описания на тему использования NOC для решения рабочих проблем
11:34
пятница, ближе к вечеру время :)
11:35
давайте вспоминать, что еще мы не сделали с FM, что мешает нам его зарелизить?
`kk #
11:36
я ещё с длинков скоро накидаю эвентов, которых нет
Dmitry1 #
11:41
кидай
`kk #
11:42
на почту тебе сразу ?
11:59
Dmitry1, ?
Dmitry1 #
12:04
в issue кидай
`kk #
12:09
ок
nixwizard #
12:11
по fm, кнопки перелистывания страниц с эвентами надо сделать не только в низу страницы но и вверху тоже
dvolodin #
12:13
Nickolas_m: вот это не стоит точно
`kk #
12:13
и в CM, когда дифы смотришь, тоже ещё одну кнопку надо. ближе к последним дифам
dvolodin #
12:13
тьфу
12:14
не стоит кнопки дублировать
12:14
просто список надо делать правильного размера
nixwizard #
12:19
по 20 эвентов на страницу?
13:02
а как такое классифицировать можно?
13:02
hp93_1, next hop router 10.0.7.1 moved from port 2/16 to port 2/2
Dmitry1 #
13:17
ZЯ предлагал Володину сделать класс IP Flap
13:18
Я могу сделать, если добавишь туда этот ивент.
_4ePTeHok #
13:18
хех, яндекс уже 20 минут как валяется.
13:18
причем весь - с моимкругом вкупе)
nixwizard #
13:22
Dmitry1, давай сообщение то информативное
Dmitry1 #
13:23
класс IP Flap
13:23
описание IP Flapped between interfaces
13:23
тело IP {{ip}} moved from {{from_interface}} to{% if mac %} {{mac}} on {% endif %}{{to_interface}}
13:24
сойдет?
nixwizard #
13:25
тока ту идет речь про nexthop, в моем случае
13:25
думаешь не стоит на этом фокусировать внисание?
Dmitry1 #
13:26
Не стоит. Главное, донести до пользователя информацию, что IP появился на другом интерфейсе.
nixwizard #
13:27
ок давай так
Dmitry1 #
13:33
сделал
13:33
коммить
dvolodin #
13:40
Авария в яндексе
13:41
оба каталиста слегли
`kk #
13:46
Dmitry1, там ещё бгп добавил
nixwizard #
13:54
Dmitry1, закоммитил
Dmitry1 #
14:28
`kk: закоммитил
`kk #
14:30
ага
Dmitry1 #
14:31
Он у меня просто иногда выдавал такую вещь
14:31
WARN(4) [BGP(7):] BGP connection is closed due to Notify: Code <4> Subcode <0> (Peer:<>).
`kk #
14:32
такого не видел
Dmitry1 #
14:32
Т.е. пир не был указан
14:33
а у меня такое постоянно сыпется. какие-то глюки в сети.
14:33
И отловить никак не могу
14:43
`kk: Ты сможешь отловить сообщения D-Link от DULD, ERPS, OSPF ?
`kk #
14:43
OSPF наверное да
14:43
остальное нет
14:43
ещё там добавил
Dmitry1 #
14:43
а DULD ? На 3627 он есть
`kk #
14:44
что это. у меня не используется
Dmitry1 #
14:44
D-Link Unidirectional Link Detection
14:45
аналог цисковскому UDLD (Unidirectional Link Detection)
14:45
Еще интересуют сообщения от VRRP и DDM
14:45
У меня нет соответствующих SFP для DDM
`kk #
14:46
с SFP аналогично -(
Dmitry1 #
14:46
а BFD используешь?
`kk #
14:46
duld посмотрю что такое в пнд
14:46
неа
Dmitry1 #
14:47
меня syslog сообщения или snmp trap интересуют
14:49
Мне на DGS-3426G не удалось заставить DULD писать в логи
Tweet
Share this page
Share this page: Tweet