About Forum Blogs NOC Docs Downloads KB Issues Code CI Registration

nocproject.org

#nocproject.org at irc.freenode.net log.
Back to nocproject.org Back to IRC log index
Date: 07.07.2015
e_zombie #
05:58
,,
06:01
халфдуплексы рисовать пунктиром с точкой. чтобы сразу было видно что пиздетц
06:25
https://pp.vk.me/c627725/v627725013/7689/S5-ImhGNL6M.jpg ростелекоммонтажстайл
dvolodin #
06:35
http://i71.fastpic.ru/big/2015/0707/dc/2b37d9cbad05b6443d66275874297adc.png
06:35
как-то так теперь
06:35
я вот чего подумал
ufir #
06:36
e_zombie у нас такие шкафы домру ставит
dvolodin #
06:36
тот же заббикс же вроде не хранит скорость интерфейса, а постоянно ее опрашивает?
e_zombie #
06:37
там даже не шкаф. там шан я так понял. но там скрутка и потом провод протянут через открытую дверь на крышу. ОТКРЫТУЮ ДВЕРЬ КАРЛ!!!!
06:37
dvolodin: КРАСНЫЙ ЦВЕТ ЛУЧШЕ НЕ ЮЗАТЬ
06:38
https://pp.vk.me/c627725/v627725013/76e3/gf4p_wFXVp4.jpg
06:38
https://pp.vk.me/c627725/v627725013/76ed/9oSXXuzJRtw.jpg
dvolodin #
06:39
e_zombie: ну так подбирайте цвета :)
06:39
давайте придумаем, как будет меняться цвет при загрузке от 0 до 100%
zi_rus #
06:43
dvolodin: цвета одобряю, кошерные
e_zombie #
06:45
реально надо что выше 85% делать другого цвета. остальное дефолтным.
06:45
а лучше сделать это регулируемым этот порог.
ufir #
06:45
да можно просто циферку рисовать посреди линка
zi_rus #
06:45
dvolodin: зеленый - желтый - оранжевый - красный
06:45
я так считаю
e_zombie #
06:46
не нужно.
06:46
слишком много цветов - будет гавно.
zi_rus #
06:46
это меньше чем в везермапе
e_zombie #
06:46
у вас и так на карте будет дохуя хостов разного цвета
ufir #
06:46
круто же
zi_rus #
06:46
а там это вполне рабочий набор
ufir #
06:46
особенно диспетчерам
e_zombie #
06:46
это всё свистоперделки которые затрудняют работы инженера.
ufir #
06:47
"два роутера стали розовыми, один чорным - а другой вообще исчез !"
e_zombie #
06:47
он сразу должен обращать внимание на аварии. а добиться этом можно только высокой "контрастность" вывода. - всё ОК- зелёное. авария - КРАСНОЕ.
zi_rus #
06:47
оранжевый можно исключить
06:48
зеленый - до 40% загрузка линка, желтый - 41-80, красный - все что выше
06:49
e_zombie: но мы про РМ на карте а не про ФМ
e_zombie #
06:50
zi_rus: https://www.linux.org.ru/gallery/screenshots/1745120?cid=1745643
zi_rus #
06:52
я с этим не спорю
e_zombie #
06:52
реально цветовая мешанина будет.
zi_rus #
06:53
не думаю
e_zombie #
06:53
всем похуй 30 там или 50. всем важно авария или нет.
zi_rus #
06:53
большинство устройств будет зелеными
e_zombie #
06:53
а если надо делать отчёт по линкам то это делать надо автоматом и в таблицаз\х
zi_rus #
06:53
ты упоролся, кто по сотне линков таблицы будет перечитывать
e_zombie #
06:54
сортировку придумали трусы?
06:54
и инфа по загрузке нужна в виде отчёта а не в виде карты.
06:54
у тебя карту в 99% случаев юзает сменный.
06:54
а это тупое животное.
06:54
у которого должен быть рефлекс на КРАСНУЮ хуюнюшечку на зелёном фоне
06:55
включено - выключено.
06:55
как у павлова
evyscr #
06:55
тащемта, каждый человек - тупое животное
e_zombie #
06:55
(с)
zi_rus #
06:55
линк с овер80% загрузки это тоже проблема
evyscr #
06:55
ит дипендс
zi_rus #
06:55
ну на клиентов покласть
06:56
а все отсальные линки - да
e_zombie #
06:56
zi_rus: заебень отчёт и спи скокойно .
dvolodin #
06:56
клиентские ты на карте и не увидешь
evyscr #
06:56
был один линк, очень важный, он был >85%
zi_rus #
06:56
dvolodin: а если я CPE в нок загнал. агааааа
dvolodin #
06:56
а сама загрузка линков должна сменному в отдельной таблице выводиться
06:56
как на бирже
06:56
:)
06:56
у intermapper была такая градация, если мне память не изменяет
06:57
до 50% зеленый
06:57
до 80% желтый
06:57
выше - оранжевый
evyscr #
06:57
говорят, давным-давно на девятке стояли девайсы с тремя индикаторами
zi_rus #
06:57
смотри, я почти угадал
06:57
dvolodin: я за плавный переход между цветами
evyscr #
06:58
блять, сделайте user defined
06:58
заебут жи
zi_rus #
06:58
evyscr: лишняя настройка
evyscr #
06:59
zi_rus: go fuck yourself
06:59
эта лишняя настройка есть ВЕЗДЕ
dvolodin #
06:59
ладно, допустим сделаю color legend
07:00
evyscr: не везде
07:00
я с intermapper долго переписывался
07:00
они так и не сделали
evyscr #
07:00
пидарасы, сэр
dvolodin #
07:00
будет в конфиге -- порог, цвет
07:00
ладно
07:00
что со скоростью интерфейса делать будем?
evyscr #
07:01
layer?
07:03
шо мы имеем в веатхермапе: bandwidth и width задаются руками
07:04
мы, конечно, можем впилить аутодетект, но меня всегда беспокоили возможные ошибки в нём
zi_rus #
07:08
dvolodin: давай комплексно решать этот вопрос
dvolodin #
07:08
evyscr: руками никто не будет задавать
07:08
слишком много линков
07:08
точнее -- ручная настройка нужна только там, где это нужно реально
evyscr #
07:09
но иногда нужна
07:09
я не против автодетекта, если его можно отключить
07:09
(выборочно)
zi_rus #
07:09
Interface profile
evyscr #
07:10
ну и вообще глобальный вопрос: в текущей реализации мап со слоями норм?
dvolodin #
07:11
zi_rus: в interface profile неудачно
07:12
много профилей будет
07:12
evyscr: там не слои
07:12
карта -- svg
07:12
соответсвенно все визуальные эффекты -- аттрибуты и фильтры SVG
07:12
расцветку объектов и линков пока делаю фильтрами
evyscr #
07:13
вопрос не в технической реализации
dvolodin #
07:13
но фильтры можно накладывать разные
07:13
там блок кнопок с выбором представления
evyscr #
07:14
ширина линка фильтрами тоже правится?
zi_rus #
07:14
dvolodin: я про отключение автодетекта в профиле
dvolodin #
07:15
хм
07:15
evyscr: нет, storke-width
07:16
zi_rus: то есть если в профиле включен автодетект скорости -- запускаем пробы?
evyscr #
07:17
не надо
zi_rus #
07:17
ты опять термины поменял?
dvolodin #
07:17
или возлагаем эту функцию на interface discovery?
zi_rus #
07:17
я за дискавери
07:17
ну просто по лигике, как с mac address discovery
evyscr #
07:18
эм
zi_rus #
07:19
dvolodin: но давай сразу комплексно задачу решать, тебе надо будет хранить эти данные, и в структуре interface status им самое место, но мы за все время так и не определились с параметрами в этой структуре, что видимо уже пришло время сделать
evyscr #
07:20
zi_rus: опиши параметры в конфлю
zi_rus #
07:21
конфлю это место где все предложения гибнут
07:21
у меня там предложение трехлетней давности так и висит
evyscr #
07:22
пиши не предложения
zi_rus #
07:23
ну и тогда вторая отмазка, у меня нет пароля под рукой
evyscr #
07:23
вообще, все структуры надо описывать
zi_rus #
07:23
:)
evyscr #
07:23
а то так и помрём, а некрологов не побачим
dvolodin #
07:30
ну а чего там писать-то собственно
07:30
id интерфейса
07:30
oper status
evyscr #
07:31
коллекция такая-то; такое-то поле - то-то.
07:32
код изменений - в таком-то файле
e_zombie #
07:33
а пить водку в 10:32 утра это нормально или лучше сразу писать заявление на увольнение из этого болота?
ufir #
07:33
после 10:30 уже нормально
07:34
если чуть-чуть ;) грамм 30
e_zombie #
07:36
нееее.
07:36
чтобы унять душевную боль тут 30 грамм мало.
ufir #
07:37
ну тогда отгул возьми ;)
e_zombie #
07:37
ктоб меня отпустил такого распиздяя
ufir #
07:37
ну тогда закусывай
e_zombie #
07:37
у меня тут скастати начали шить хуавеии 5600 так что обращайся если чё
zi_rus #
07:37
dvolodin: админ статус, опер статус, скорость вверх, скорость вниз, дуплекс
ufir #
07:37
лады
evyscr #
07:39
там есть какой-то broken
07:39
e_zombie: какая нафиг душевная боль, ты на этом канале больше двух лет
zi_rus #
07:39
dvolodin: причем админ/опер статусы можно объединить в тройной СТАТУС - SHUTDOWN (admin down/oper down) - DOWN (admin up/oper down) - UP (admin up/oper up)
e_zombie #
07:40
неее.. тут похлеще.
dvolodin #
07:41
zi_rus: зачем
07:41
admin status + oper status
07:41
и, таки, interface status discovery делаем, так?
evyscr #
07:41
да
07:41
в интерфейс дискавери это нельзя запихивать точно
zi_rus #
07:42
dvolodin: ну я следую логике и оптимизации, ведь статус admin down/oper up не может в принципе существовать
evyscr #
07:42
хм
07:42
zi_rus: с l3 бывает весело
07:42
admin down, а адрес пингуется
zi_rus #
07:43
наобщаетесь вы с китайцами, потом бредите
dvolodin #
07:43
zi_rus: следуя логике -- эффективный статус равен результату булевского произведения статусов :)
zi_rus #
07:44
это не независимые параметры
07:44
опер зависит от админа
evyscr #
07:45
но интересен ли эффективный статус per se?
zi_rus #
07:45
это исключит ошибки
dvolodin #
07:45
zi_rus: а вот это зависит от реализации
evyscr #
07:46
при раскраске три статуса смотрятся вполне легально
zi_rus #
07:46
вот что будет с ноком елси он увидит админ даун, опер ап
dvolodin #
07:46
evyscr: одно из другого получить моэно
evyscr #
07:46
можно, конечно
07:46
вообще изи
07:46
00, 10, 11
zi_rus #
07:46
сойдет с ума и вывалит трейс
dvolodin #
07:47
нет, порадует тебя этим фактом
07:47
а можно и валидацию придумать
07:47
находить такие интерфейсы и счастливить админа
zi_rus #
07:47
зачем, если мое предложение исключает эту проблему в принципе
evyscr #
07:47
не исключает
dvolodin #
07:47
@property
07:47
def status(self):
07:48
if self.admin_down:
07:48
return "SHUT"
07:48
elif not self.admin_down and self.oper_down:
07:48
return "DOWN"
07:48
....
07:48
ну так далее
zi_rus #
07:49
норкомания какая-то
dvolodin #
07:49
ладно, будет два булевских статуса
evyscr #
07:49
эм?
dvolodin #
07:49
admin_status = BooleanField()
07:49
oper_status = BooleanField()
evyscr #
07:49
ок
dvolodin #
07:49
что там еще у нас
zi_rus #
07:50
дуплекс
dvolodin #
07:50
ok
evyscr #
07:50
broken, err_disable
dvolodin #
07:50
дуплекс как будем хранить?
07:50
full_duplex = BooleanField() ?
evyscr #
07:50
ну да
dvolodin #
07:51
хех
07:51
ifAdminStatus OBJECT-TYPE
07:51
SYNTAX INTEGER {
07:51
up(1), -- ready to pass packets
07:51
down(2),
07:51
testing(3) -- in some test mode
07:51
}
07:51
MAX-ACCESS read-write
07:51
STATUS current
07:51
DESCRIPTION
07:51
"The desired state of the interface. The testing(3) state
07:52
indicates that no operational packets can be passed. When a
07:52
managed system initializes, all interfaces start with
07:52
ifAdminStatus in the down(2) state. As a result of either
07:52
explicit management action or per configuration information
07:52
retained by the managed system, ifAdminStatus is then
07:52
changed to either the up(1) or testing(3) states (or remains
07:52
in the down(2) state)."
07:52
::= { ifEntry 7 }
07:52
ifOperStatus OBJECT-TYPE
07:52
SYNTAX INTEGER {
07:52
up(1), -- ready to pass packets
07:52
down(2),
07:52
testing(3), -- in some test mode
07:52
unknown(4), -- status can not be determined
07:52
-- for some reason.
07:52
dormant(5),
07:52
notPresent(6), -- some component is missing
07:52
lowerLayerDown(7) -- down due to state of
07:52
-- lower-layer interface(s)
07:52
}
07:52
не будем усложнять?
07:52
ifLastChange можно, кстати, тоже дернуть
evyscr #
07:52
а мне нравится идея с мибами
dvolodin #
07:53
я оттуда только что на serial видел dormant
07:53
дальше вот еще задница
07:53
ifSpeed один
evyscr #
07:55
там же ж другие, не?
07:56
ifHighSpeed
dvolodin #
07:56
"An estimate of the interface's current bandwidth in bits
07:56
per second. For interfaces which do not vary in bandwidth
07:56
or for those where no accurate estimation can be made, this
07:56
object should contain the nominal bandwidth. If the
07:56
bandwidth of the interface is greater than the maximum value
07:56
reportable by this object then this object should report its
07:56
maximum value (4,294,967,295) and ifHighSpeed must be used
07:56
to report the interace's speed. For a sub-layer which has
07:56
no concept of bandwidth, this object should be zero."
07:56
на микротике посмотрел, ifHighSpeed = 0
evyscr #
07:57
там есть 10G?
zi_rus #
07:58
dvolodin: несимметричные линки тоже существуют. ADSL, PON
07:59
а еще есть однонаправленные типа спутник
dvolodin #
07:59
zi_rus: я в курсе
07:59
вопрос в том, как доставать скорость там
zi_rus #
07:59
:)
07:59
есть где проверить? :)
08:01
я думаю это из тех где скорость можно руками задать
dvolodin #
08:02
я думаю, что там свои мибы
evyscr #
08:05
дуплекс весёлая хрень
08:05
где два оида, где один
08:06
и тоже ни разу не boolean
08:09
поцики пишут, что SYNTAX INTEGER { half(1), full(2), disagree(3), auto(4), auto-half (5), auto-full (6) } (в отличие от показываемого tools.cisco.com)
dvolodin #
08:09
кстати в ifmib его нет
evyscr #
08:09
ну да
dvolodin #
08:10
где ты его увидел?
evyscr #
08:10
portDuplex
08:10
в cisco-stack-mib
08:10
для 2900 своё
08:11
а ещё есть dot3StatsDuplexStatus
08:12
CISCO-C2900-MIB::c2900PortDuplexStatus. This only applies to 2900, 2950 and 3500 switches.
zi_rus #
08:13
dvolodin: я репорнут тебе трейс. глянь одним глазком, это уже репортили тебе? noc wipe завалился
dvolodin #
08:13
evyscr: оно древнее
evyscr #
08:13
CISCO-C2900-MIB::c2900PortDuplexState
08:13
оно древнее, но ещё живое
dvolodin #
08:18
а теперь самый животрепещущий вопрос -- курочим IGetInterfaceStatus ?
evyscr #
08:19
ну тут транзакцию надо делать
dvolodin #
08:19
угу
08:20
у нас там 35 скриптов все-таки
ss #
08:20
[fq
08:20
хай
dvolodin #
08:20
или просто рядом пока положим generic ?
08:20
с другим названием
evyscr #
08:20
лучше так
08:21
чую, ещё помучаемся с возвращаемым
dvolodin #
08:21
да, он сейчас check_link'ом используется
08:21
лучше его оставить как есть
08:21
о
08:21
get_interfaces_status будет
evyscr #
08:22
аре ыоу суре?
dvolodin #
08:22
или get_interface_status_ex
08:22
или get_xinterface_status
evyscr #
08:23
первое и с bulk'ом
dvolodin #
08:23
ну да
08:23
bulk у нас автоматом уже, кстати
evyscr #
08:23
и для pm?
08:24
а то я что-то видел каждый раз поднятие сокета
08:25
по каждому порту, конечно же
08:26
энивей, первый вариант всё одно напрашивается
SS__ #
08:27
хай
08:27
что за утечка памяти в SAE?
evyscr #
08:28
SS__: у тебя утечка - ты и рассказывай
SS__ #
08:28
ща логи пульну
evyscr #
08:28
конфиг приложи
SS__ #
08:29
etc/noc-sae.conf тут есть два параметра в секции [sae] max_mrt_rate_per_sae = 0 max_mrt_rate_per_shard = 0
08:29
что значат?
dvolodin #
08:29
https://cp.nocproject.org/p/rHsA
08:29
evyscr: да
SS__ #
08:33
noc 19123 79.3 25.8 4369636 4217460 ? S 11:27 3:51 /opt/noc/bin/python ./scripts/noc-sae.py launch -c etc/noc-sae.conf -i 0
08:33
четверь оперативы сожрал сразу с запуском
evyscr #
08:37
dvolodin: эй, возвращай инты
08:37
мир интам, война булинам
dvolodin #
08:45
не
08:45
нафиг
freeseacher #
08:53
много букв написали.
08:53
цвета надо не хардкодить.
08:54
ибо в моем окружении есть как минимум два дальтоника.
08:54
скорость лучше хранить. мы ее уже по факту знаем
dvolodin #
08:56
https://cp.nocproject.org/p/soPQ
08:56
вот выхлоп
08:56
скорость решили делать отдельным discovery
freeseacher #
08:56
ок
08:57
как переопределить результаты дискаверинга ?
08:57
у меня ряд железяк у которых 10г интерфаейсы выглядят как 4милиардаа
08:58
64 битного каунтера нет
dvolodin #
09:03
ловите скрипт
e_zombie #
09:03
урааааа
09:03
счас что то сломается
dvolodin #
09:03
freeseacher: а highspeed посмотри
09:03
e_zombie: нифига не сломается
09:03
пока только скрипт
freeseacher #
09:04
dvolodin, нету highspeed
e_zombie #
09:04
sex.py
09:05
...sex.py доставляет
dvolodin #
09:05
freeseacher: значит кастомные mib'ы должны быть
evyscr #
09:05
"как переопределить результаты дискаверинга ?"
dvolodin #
09:05
кстати
09:06
может быть в профиле просто сделать функцию
09:06
определить скорость по имени интерфейса?
evyscr #
09:06
unknown
freeseacher #
09:06
dvolodin, нее нету. искали
09:06
Juniper E120
09:07
бага.
evyscr #
09:27
хм
e_zombie #
09:27
http://www.opennet.ru/opennews/art.shtml?num=42573
evyscr #
09:27
WARNING: there is no transaction in progress
e_zombie #
09:28
транзакциии хуизакции.
09:28
с ними беда. инфа 90%
09:30
NOC-1633?filter=-2
evyscr #
09:34
e_zombie: но ты что-то часто всякую херню пишешь вместо нормального описания бага
09:35
энивей, данный ворнинг подозрителен
e_zombie #
09:36
не бывает глупых вопросов - бывают глупые ответы (с)
evyscr #
09:36
ну-ну
09:37
не бывает глупых инженеров саппорта
e_zombie #
09:37
я не врач чтобы ставить диагнозы. я вижу симптомы. и мне они кажутся подозрительными. вместо своих суждений запустил аргументы против или за.
evyscr #
09:38
ты инженер или коммерсант?
e_zombie #
09:39
я инженер.
evyscr #
09:40
инженер должен обладать достаточной квалификацией, чтобы локализовать проблему, не?
09:41
с учётом того, что в ноке всё одно разбираться придётся самому
e_zombie #
09:42
если бы я мог локализовать проблему я бы про это написал. но так как проблема скрыта где в глубинах системы я хз как к ней подобраться. и делая баг я ожилаю от коммьюнити помощи а не заявлений в стиле "тыж инженер"
hu4 #
09:46
всем привет! Помогите с проблемой пожалуйста. Для дохлых MO, которые не пингуются не создаются алармы в FM. tcpdump показывают, что пинг уходит, в дебаге активатора видно, что ответа нет. но аларма нету.
e_zombie #
09:47
смотри логи корелятора
09:47
и слассификатора
hu4 #
09:47
кореллятор - только старт неких джобов
09:48
классификатор - посмотрю, уровень info малоинформативен
e_zombie #
09:50
врубай дебаг на обоих в конфигах
Huko2 #
09:50
добро пожаловать в клуб :)
abyrvalg #
09:51
Клуб мазохистов, емана. :)
freeseacher #
09:53
evyscr, последний релиз стабильный
hu4 #
09:53
где ещё можно посмотреть что-нить? не нашёл странностей в обоих
09:54
алармы и евенты почистить может?
e_zombie #
09:56
evyscr: NOC-1633?focusedCommentId=16084&page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel#comment-16084 вкуси этих мягких булочек.
freeseacher #
09:58
однако не смотря на то что последний релиз вполне себе стабильный
e_zombie #
09:58
hu4: http://pastebin.com/xv9nRC9m
freeseacher #
09:58
он создает другую граблю
09:58
быстро расет размер таблицы sa_maptask
09:59
у меня пока для этого решения нет
09:59
раз в два дня клирю ее командами e_zombie
abyrvalg #
09:59
> большое количество коннектов со статусом IDLE
09:59
e_zombie: Насколько большое?
hu4 #
10:00
ой-ой. попробую, спасибо
freeseacher #
10:00
там может быть оочень много
10:00
примерно как количество устройств
e_zombie #
10:01
abyrvalg: 13
abyrvalg #
10:01
13 IDLE - это много?
e_zombie #
10:01
вернее 8 если только идле.
10:02
с TTL больше часа?
abyrvalg #
10:02
У меня тут одинЦЕ есть. 400 IDLE - как тебе? :)
e_zombie #
10:02
я нок ребутал как раз час назад. поглядим что будет завтра.
10:03
на уровне инстинкта мне не нравится транзакция в час времени в системе которая должна выполнять любые операции менее чем за 5 минут.
10:04
16470 | 2015-07-07 11:55:26.986159+03 | 2015-07-07 11:55:26.986787+03 | idle in transaction | SELECT COUNT(*) FROM "sa_managedobjectselector" INNER JOIN "sa_managedobjectsel
10:04
ector_sources" ON ("sa_managedobjectselector"."id" = "sa_managedobjectselector_sources"."to_managedobjectselector_id") WHERE "sa_managedobjectselector_sources"."from_managedo
10:04
bjectselector_id" = 463
freeseacher #
10:04
e_zombie, ребутать весь нок не надо было.
10:04
только дискавери
e_zombie #
10:04
апдейты приехали
abyrvalg #
10:05
Я пока до этого не добрался, но там мне думается надо постгре подкрутить.
e_zombie #
10:05
такая ситуация наблюдалась и на 8.4 и на 9.4
freeseacher #
10:05
dvolodin, ты пока не будешь смотреть как можно побороться с ростом таблицы sa_maptask ? я так понимаю стредствами постгреса это больше разрулить нельзя
abyrvalg #
10:06
e_zombie: У него должен быть инструмент для убиения висячих коннектов.
e_zombie #
10:07
noc=# SELECT COUNT(*) FROM "sa_managedobjectselector" INNER JOIN "sa_managedobjectselector_sources" ON ("sa_managedobjectselector"."id"="sa_managedobjectselector_sources"."to_managedobjectselector_id") WHERE "sa_managedobjectselector_sources"."from_managedobjectselector_id" = 463;
10:07
count
10:07
-------
10:07
0
10:07
(1 row)
10:08
abyrvalg: http://imgur.com/mPEI9mR
10:09
это нормально?
evyscr #
10:09
это нок (q)
dvolodin #
10:09
freeseacher: я думаю мы ее просто искореним
freeseacher #
10:10
ага
10:10
я на это и намекаю
dvolodin #
10:10
сейчас карту до ума доведем, потом попилим все на supervisord и будем на микросервисы на NSQ бить
10:10
ответ напрямую от активатора клиенту поедет
abyrvalg #
10:10
e_zombie: Вот не знаю. Сравнивать надо хоть с чем-то.
e_zombie #
10:11
SELECT datid,query_start,state_change,state FROM pg_stat_activity where datname='noc' ; сделай у сеюбя
evyscr #
10:16
e_zombie: а теперь смотри в noc-scheduler.log кто выполнялся во время варнинга
10:19
у меня вот большое подозрение на [main.jobs][main.cleanup]
hu4 #
10:24
e_zombie: очистка баз данных не принесла результата. после запуска не появилось ни одного события NOC | Managed Object | Ping OK / Failed
10:24
может ещё идеи есть?
e_zombie #
10:25
db.noc.schedules.inv.discovery.update({s: "D"}, {$set: {s: "W"}}, {multi: true})
10:25
у тебя дискавери для этих хостов вообще есть? проверь в карточке МО
hu4 #
10:26
я выполнял эту команду
evyscr #
10:26
она не поможет
hu4 #
10:26
дискавери есть. ping - пишет есть в профиле, и статус ОК %)
e_zombie #
10:30
по идее после ребута всё должно заново пропинговываться.
10:30
а утеб я в мониторе FM посмотри какой lag
hu4 #
10:30
он пингует, активатор пишет [root] [Activator(0x37e1210)]<ESTABLISHED> PING 10.x.x.x: Result [0.004067897796630859] [True -> True]
10:31
в мониторе фм для лага стоит прочерк
10:31
new_events = 0
e_zombie #
10:31
кхм
hu4 #
10:32
в тоже время сислоги / трапы вполне ок работают, классифицируются и т.п.
evyscr #
10:33
e_zombie: кстати, выруби uptime discovery
e_zombie #
10:33
ээээ?
evyscr #
10:33
сравни разницу
10:34
(не факт, что что-то будет)
hu4 #
10:37
хм. вот выключил uptime discovery - и тут же алармов насыпало.
10:37
кто знает, почему так?
evyscr #
10:39
переохранило/пересоздало, например
10:40
LOG: parameter "log_line_prefix" changed to "%m %d %u "
10:40
LOG: parameter "log_min_duration_statement" changed to "10"
hu4 #
10:40
я заводил новый MO с несуществующим айпи, не прокатило.
evyscr #
10:40
(на 50 ничего не цепляло)
hu4 #
10:40
Спасибо всем!
10:42
а аптайм дискавери работает?
evyscr #
10:43
увы, да
dvolodin #
10:50
hu4: работает, фиксирует перезагрузки
evyscr #
10:57
dvolodin: как vacuum (из noc.lib.db) работает?
dvolodin #
10:58
как vacuum
10:58
:)
evyscr #
10:58
почему в нём есть commit?
hu4 #
10:59
действительно работает. создал MO профиль с детектом аптайма, ребутнул железку. создался евент/аларм "пинг файлед", железка загрузилась и появилась в отчёте FM - Reports - Reboots
evyscr #
10:59
dvolodin: другими словами, почему есть commit, но нет begin?
dvolodin #
11:00
evyscr: спроси чего попроще
11:00
это какой-то старый хлам
11:00
еще для 8-го постгреса
evyscr #
11:00
main/jobs/cleanup
11:02
это единственное место вызова
11:03
если уж так надо делать явную транзакцию, делайте её в main/jobs/cleanup.py
11:03
(commit, конечно, не делает явную транзакцию, если что)
Dmitry1 #
11:04
dvolodin: https://bitbucket.org/nocproject/noc/commits/5bb412f2cfad90d23de2727def1d068b71d9fb80
11:04
три комментария
evyscr #
11:06
чуваки, а вы хоть в курсе, что в копирайте год начала равен году создания файла, а не проекта?
11:06
(давно что-то на смех пробивает)
dvolodin #
11:11
evyscr: кто тебе сказал такую чушь?
evyscr #
11:12
опыт работы
dvolodin #
11:12
опыт у всех разный
evyscr #
11:13
нас FSF защищали однажды
fumufu86 #
11:13
Как узнать почему на одну и ту же команду, на одном и том же коммутаторе нок пишет undefined, а консоль даёт нормальный вывод?
11:13
4_liniya_d28> sh ver
11:13
undefined
11:14
4_liniya_d28#sh ver
11:14
SNR-S2950-24G Device, Compiled on Oct 31 00:40:31 2011
11:14
SoftWare Version 6.2.138.58
11:14
BootRom Version 4.10.1
11:14
HardWare Version 1.0.1
11:14
CPLD Version N/A
11:14
Device serial number A200053QMT
evyscr #
11:14
dvolodin: а кто тебе сказал обратную чушь?
fumufu86 #
11:14
Copyright (C) 2011 NAG LLC
11:14
All rights reserved
11:14
Last reboot is cold reset.
11:14
Uptime is 0 weeks, 4 days, 8 hours, 57 minutes
dvolodin #
11:16
да, дим, видел, потом смотреть будем
11:16
хочу графики дополировать
11:16
evyscr: опыт работы
11:16
:)
evyscr #
11:16
в каких проектах?
11:18
я могу сослаться на, к примеру, kernel и glib
dvolodin #
11:19
возможно
11:19
какое отношение они имеют к NOC?
11:19
и какое отношение к NOC имеет FSF?
evyscr #
11:20
дима, ты сказал чушь.
11:23
а юристы FSF имеют отношение к этой самой хрени под названием copyright
dvolodin #
11:24
какое же?
evyscr #
11:24
работают с ней
dvolodin #
11:24
молодцы
11:24
и?
evyscr #
11:24
да всё уже, успокойся
dvolodin #
11:26
много ли дел выиграли юристы FSF?
evyscr #
11:29
было
11:29
немало также решалось в досудебном порядке
dvolodin #
11:30
ну-ну
evyscr #
11:30
хихик
dvolodin #
11:30
обычный американский юридический троллинг
evyscr #
11:30
парни из redhat тоже нубы
11:30
конечно, ты лучше знаешь
dvolodin #
11:30
эти-то каким боком?
11:30
у них в политике проектов определен формат заголовка
11:31
и?
evyscr #
11:31
14:24:47 <evyscr> да всё уже, успокойся
11:32
оставь за собой последнее слово, я не буду продолжать
e_zombie #
11:39
а ну быстро по шконкам и компилять!!!
11:39
развели тут копирастию.
dvolodin #
11:39
http://i70.fastpic.ru/big/2015/0707/87/cd9a13842cbf9be99d061a6ca3facf87.png
e_zombie #
11:39
ой пиздетц пиздетц.
11:39
извините не удержался.
dvolodin #
11:40
к вопросу об анализе симметричности загрузки линка
11:40
можно располагать маркер на линке пропорционально нагрузке
e_zombie #
11:40
https://pp.vk.me/c625723/v625723151/3e607/veXX9lrqzRY.jpg
11:40
https://pp.vk.me/c625723/v625723151/3e611/KWw3wO4P_3o.jpg
ufir #
11:49
ништяк ;) а что за скобка на линке ?
dvolodin #
11:55
http://i71.fastpic.ru/big/2015/0707/c4/ded76d28eb9b594918faae6c5e7c90c4.png
11:55
вот так оно будет, это демка была
11:56
точечка на линке показывает соотношение входящего и исходящего трафика
11:56
при 50% она посередине линка
Dmitry1 #
11:57
dvolodin: забей
dvolodin #
11:57
линки пунктирные потому как discovery еще не прошел
Dmitry1 #
11:57
это сферический конь в вакууме
dvolodin #
11:57
Dmitry1: ну иногда нужно видеть
Dmitry1 #
11:57
у меня на Cisco uBR на 1 downlink 4 uplink'а
11:59
есть и еще более хитрые соединения
12:02
cisco#show interfaces cable 1/0 downstream
12:02
Cable1/0: Downstream is up, IF output is up
12:02
1941614806 packets output, 275447325 bytes, 10032919 discarded
12:02
0 output errors
12:02
58 total active devices, 34 active modems
12:02
Total downstream bandwidth: 30341 Kbps
12:02
Total downstream reserved/reservable bandwidth: 0/24273 Kbps
12:02
Estimated usable bandwidth: 26000 Kbps
12:04
cisco#show controllers cable 1/0 upstream 2
12:04
Cable1/0 Upstream 2 is up
12:04
Frequency 26.000 MHz, Channel Width 3.200 MHz, QPSK Symbol Rate 2.560 Msps
12:04
Spectrum Group is overridden
12:04
US phy MER(SNR)_estimate for good packets - 28.4730 dB
12:04
Nominal Input Power Level 0 dBmV, Tx Timing Offset 2582
e_zombie #
12:05
Dmitry1: лучше погляди NOC-1633
Dmitry1 #
12:06
я в postgresql не разбираюсь
12:06
более-менее шарю в mysql
e_zombie #
12:10
таки там проблема с кодом нока а не постгри
Dmitry1 #
12:11
я понимаю
e_zombie #
12:11
даже наверное логики работы.
evyscr #
12:11
и пихания транзакций во все места
Dmitry1 #
12:11
я не знаю, как для postgresql заниматься отладкой запросов
evyscr #
12:12
а тут запросы не надо отлаживать
e_zombie #
12:12
у меня сейчас после рестарта висит 90 в идле трансактион
Dmitry1 #
12:12
в том же mysql есть explain, explain extended, prepeared statement и т.п.
12:13
опять же, при открытии соединения можно указать кучу параметров, таких как таймауты, держать ли соединение всегда открытым и т.п.
12:14
Попытка разобраться в логике работы NOC сломала мне мозг
dvolodin #
12:14
ловите
e_zombie #
12:15
я пожалуй пропущу эту стопку.
Dmitry1 #
12:17
dvolodin: Дим, ты реально оторван от жизни. 90% народа, который именно обслуживает сеть, а не проектирует, горадо более важно количество ошибок на интерфейсе, а не попугаи его загрузки
evyscr #
12:18
Dmitry1: не говори за 90%
ufir #
12:18
я бы сказал больше 90%
e_zombie #
12:18
хуй
evyscr #
12:18
и у каждого выборка в 5 человек
ufir #
12:18
ибо там где надо, мне каналов хватает
12:18
в 5, да ;(
dvolodin #
12:18
дим, а ошибки на интерфейсах ищут не шастанием по картам
12:19
:)
evyscr #
12:20
хм
12:20
а что у нас выполняется раз в 5 минут по virtual circuit?
dvolodin #
12:20
теперь для полного красотизма нужен interface_status_discovery
evyscr #
12:21
vc.update_cache
Dmitry1 #
12:21
dvolodin: а в статусе - ошибки
dvolodin #
12:21
evyscr: насчет vacuum ты уверен?
Dmitry1 #
12:21
и смотреть, как увеличивается счетчик ошибок за период времени
evyscr #
12:22
dvolodin: grep -r is cheap
12:22
нет других вхождений
12:23
а кто у нас логгирует vc.update_cache?
mali_ #
12:23
привет, всем! у меня вопрос, я нок пока только постигаю - а что за сущность такая Administrative Domain? где про нее подробнее почитать можно, за что она в ноке отвечает?
e_zombie #
12:23
это типа группа народкукоторая рулит оборудованием
12:23
типа у меня админа в районе
evyscr #
12:24
в целом, не отвечает ни за что?
Dmitry1 #
12:24
dvolodin: у меня over 10000 коммутаторов, и ни на одном мне не понадобилось узнать пропускную способность, а вот ошибки на портах, статус flow control, mdi/mdi-x, скорость на порту, bandwith control - это ежедневная задача, на которую тратится 50% времени
e_zombie #
12:25
гыыыыы
12:25
ошибки на портах
abyrvalg #
12:25
Dmitry1: А почему заббиксом по snmp не опрашивать?
Dmitry1 #
12:25
dvolodin: Абонент звонит, что у него медленный интернет. Ты думаешь, я буду смотреть на загрузку 1G линка до него ?
dvolodin #
12:25
NOC собирает ошибки
Dmitry1 #
12:26
dvolodin: с каких это пор он собирает ошибки ?
mali_ #
12:26
e_zombie: ясн, спасиб)
Dmitry1 #
12:27
DGS-3620-28SC:admin#show error ports 1-24
12:27
Command: show error ports 1-24
12:27
Port Number : 4
12:27
RX Frames TX Frames
12:27
--------- ---------
12:27
CRC Error 0 Excessive Deferral 0
12:27
Undersize 0 CRC Error 0
12:27
Oversize 11348 Late Collision 0
12:27
Fragment 0 Excessive Collision 0
12:27
Jabber 0 Single Collision 0
12:27
Buffer Full Drop 0 Collision 0
12:27
Symbol Error 0 STP Drop 141201
12:27
ACL Drop 10445437 HOL Drop 0
12:27
Multicast Drop 11418583 COS0 HOL Drop 0
12:28
VLAN Ingress Drop 0 COS1 HOL Drop 0
12:28
Invalid IPv6 0 COS2 HOL Drop 0
12:28
STP Drop 140533 COS3 HOL Drop 0
12:28
Storm and FDB Discard 0 COS4 HOL Drop 0
12:28
MTU Drop 0 COS5 HOL Drop 0
12:28
COS6 HOL Drop 0
12:28
COS7 HOL Drop 0
12:28
dvolodin: какие из этих ошибок собирает NOC ?
evyscr #
12:28
pm
Dmitry1 #
12:29
evyscr: ты хочешь об этом поговорить ? Где в PM посмотреть, счетчик дропнутых пакетов ACL ?
evyscr #
12:29
там, где ты его сделаешь
12:30
isn't it nocproject?
Dmitry1 #
12:30
evyscr: Спасибо за совет. Я уже в Cacti сделал
evyscr #
12:31
думаешь, в ноке тем же способом не получится?
Dmitry1 #
12:32
У меня не получилось.
12:32
Потратил 2 дня на это.
evyscr #
12:33
хм
12:33
печально
Dmitry1 #
12:36
просто в Cacti уже куча готовых темплейтов, которые работают "из коробки"
dvolodin #
12:39
по результатам discovery :)
Dmitry1 #
12:39
А Дима даже не хочет создать темплейты для MO Profile, такие как "уровень ядра", "уровень распределения", "уровень аггрегации", "уровень доступа"
12:41
Или вот взять "Termination Group". народ как-то его использует. Но я до сих пор не знаю, что это такое, потому как нету готовых примеров в базовой поставке
evyscr #
12:42
e_zombie: ещё здесь?
e_zombie #
12:43
да
Dmitry1 #
12:43
Тот же прикол с "Action Command", который с какого-то перепугу тупо игнорирует скрипты в sa/profiles, а напрямую пытается что-то выполнять на железках
evyscr #
12:45
e_zombie: у тебя query в pg_stat_activity не содержат ли в основном SELECT "vc_vc"."id", "vc_vc"."vc_domain_id", "vc_vc"."name", "vc_vc"."state_id", "vc_vc"."project_id"...?
e_zombie #
12:45
5 сек
evyscr #
12:45
из числа idle in transaction
Dmitry1 #
12:46
Вобщем грустно все.
e_zombie #
12:46
SELECT "sa_objectnotification"."id", "sa_objectnotification"."selector_id", "sa_objectnotifi
12:46
cation"."notification_group_id", "sa_objectnotification"."config_changed", "sa_objectnotification"."alarm_risen", "sa_objectnotification"."alarm_reopened", "sa_objectnotification"."alarm_
12:46
cleared", "sa_objectnotification"."alarm_commented", "sa_objectnotification"."new", "sa_objectnotification"."deleted", "sa_objectnotification"."version_changed", "sa_objectnotification"."
12:46
interface_changed", "sa_objectnotification"."script_failed", "sa_objectnotification"."config_policy_violation" FROM "sa_objectnotification" WHERE ("sa_objectnotification"."selector_id" IN
12:46
(694, 531, 434, 666, 439, 11, 14) AND "sa_objectnotification"."config_changed" = true )
Dmitry1 #
12:46
Завтра иду в отпуск.
e_zombie #
12:47
вот самый олдовый что висит
12:47
16470 | 2015-07-07 13:37:26.629238+03 | 2015-07-07 13:37:26.629854+03 | idle in transaction | SELECT "main_customfield"."id", "main_customfield"."table", "main_customfield".
12:47
"name", "main_customfield"."is_active", "main_customfield"."label", "main_customfield"."type", "main_customfield"."description", "main_customfield"."max_length", "main_custom
12:47
field"."regexp", "main_customfield"."is_indexed", "main_customfield"."is_searchable", "main_customfield"."is_filtered", "main_customfield"."is_hidden", "main_customfield"."en
12:47
um_group_id" FROM "main_customfield" WHERE ("main_customfield"."table" = 'peer_asset' AND "main_customfield"."is_active" = true )
Dmitry1 #
12:47
очень надеюсь, что хоть будут какие-то попытки починить FM и IPAM
evyscr #
12:48
e_zombie: а ежели не по олдовости, а по количеству?
Dmitry1 #
12:48
ни один, ни второй тупо не работают
evyscr #
12:49
ipam вроде ещё жив
e_zombie #
12:49
16470 | 2015-07-07 15:40:00.47534+03 | 2015-07-07 15:40:00.492264+03 | idle in transaction | SELECT "vc_vc"."id", "vc_vc"."vc_domain_id", "vc_vc"."name", "vc_vc"."state_id", "vc_vc"."project_id","vc_vc"."l1", "vc_vc"."l2", "vc_vc"."description", "vc_vc"."style_id", "vc_vc"."tags" FROM "vc_vc" ORDER BY "vc_vc"."vc_domain_id" ASC, "vc_vc"."l1" ASC, "vc_vc"."l2" ASC 16470 |2015-07-07 15:43:52.286739+03 | 2015-07-07 15:43:52.286945+0
12:49
вот тебе самый древний и походу едиственный с вц
evyscr #
12:49
e_zombie: вот таких сколько?
Dmitry1 #
12:49
evyscr: ipam мертв, давно уже
evyscr #
12:49
хм
e_zombie #
12:49
один
evyscr #
12:50
я сейчас вижу четыре
e_zombie #
12:50
и он не шибко древний.
12:50
вот это херня 16470 | 2015-07-07 15:43:52.286739+03 | 2015-07-07 15:43:52.286945+03 | idle | COMMIT
evyscr #
12:50
и три явно связанных с ним SELECT "sa_managedobject"."id" FROM "sa_managedobject" WHERE "sa_managedobject"."vc_domain_id" = 1...
e_zombie #
12:51
wtf ?
evyscr #
12:51
idle
e_zombie #
12:51
предполагаю что гдету внутри идут блокировки данных и оно встаёт в раскоряк изза этого. это моя версия.
evyscr #
12:51
но вообще да, коммит - штука тяжёлая
Dmitry1 #
12:52
http://fastpic.ru/view/71/2015/0707/1972a3583aebceed8ebe645185e83d03.png.html
12:52
вот пример нерабочего IPAM
evyscr #
12:52
отключи
12:52
поимей профит
Dmitry1 #
12:53
Каждый хост - это MO, реально заведенный в NOC, причем у него адрес управления в сети 10.116.0.0/24
12:53
Об этом я говорю уже несколько лет, но все почему-то восторгаются IPAM
e_zombie #
12:54
я вот не пользую ипам.
12:54
я вот нихера не знаю как им пользоваться.
Dmitry1 #
12:54
я тоже не использую, ибо от него пользы - 0%
e_zombie #
12:55
народ. а кто как порты подписывает - поделитесь примером для Б2б сегмента.
Dmitry1 #
12:55
После того, как добавили handers - отключил FM
e_zombie #
12:56
Link down: ge-0/0/6 (-M- | OAO_Rosselhozbank,Sheina,20/dlink-rosselhozbank-vsk/D-Link_DES-3200-10_GigabitEthernet10 |)
evyscr #
12:56
Dmitry1: я щас тебе вспомню, как ты применил мой патч. Поправив год копирайта и выбросив import re -> welcome to traceback
e_zombie #
12:56
вот я считаю что это пидорастия.
Dmitry1 #
12:58
evyscr: меня по телефону тогда отвлекли, поэтому я криво патч применил
evyscr #
13:00
этот трейсбек всплывал на любом длинке из DxS
13:01
я, конечно, ценю доверие ко мне, но лучше всё-таки проверять перед пушем
13:02
# hg diff | wc -l
13:02
480
13:02
# hg status | grep '\?.*py' | wc -l
13:02
28
Dmitry1 #
13:03
я на работе работаю многостаночником, от программиста/сисадмина, до техподдержки. Кроме этого, еще участвую в нескольких проектах, кроме NOC
13:03
физически не успеваю все проверит на ошибки
evyscr #
13:22
в общем, у меня сейчас 12 из 14 idle in transaction - vc.update_cache
e_zombie #
13:23
однако
13:23
у меня это вроде в дисаблед стоит поэтому и нету.
evyscr #
13:26
в noc-scheduler.log не упоминаются?
e_zombie #
13:26
кхм. а не
13:26
включено
evyscr #
13:27
нет механизма выключения
e_zombie #
13:27
2015-07-07 16:20:07,463 [noc.lib.scheduler.job] [main.jobs][vc.update_cache][None] Job completed successfully (7291.06ms)
13:27
2015-07-07 16:20:07,464 [noc.lib.scheduler.scheduler] [main.jobs] Rescheduling job vc.update_cache(None) to 2015-07-07 16:25:00 status=W
13:27
2015-07-07 16:25:00,871 [noc.lib.scheduler.job] [main.jobs][vc.update_cache][None] Running job
13:27
2015-07-07 16:25:00,882 [noc.lib.scheduler.job] [main.jobs][vc.update_cache][None] Running job handler
13:27
2015-07-07 16:25:01,980 [noc.lib.scheduler.job] [main.jobs][vc.update_cache][None] Job completed successfully (1097.87ms)
13:27
2015-07-07 16:25:01,981 [noc.lib.scheduler.scheduler] [main.jobs] Rescheduling job vc.update_cache(None) to 2015-07-07 16:30:00 status=W
dvolodin #
13:27
evyscr: https://cp.nocproject.org/p/0VXa
13:27
попробуй так
evyscr #
13:28
ой не знаю
13:29
оно и так вешается не пойми где
dvolodin #
13:34
закоммитил пачку c interface_status_discovery
Dmitry1 #
13:37
dvolodin: Дим, добавь поля, указанные в https://bitbucket.org/nocproject/noc/commits/5bb412f2cfad90d23de2727def1d068b71d9fb80
13:37
иначе потом будешь выдумывать интерфейс IGetInterfaceStatusExExExEx
dvolodin #
13:38
их потом можно будет добавлять
13:39
ты слишком в сторону dlink'а тянешь
Dmitry1 #
13:41
dvolodin: это все актуально на любом оборудовании "уровня доступа". Не все в датацентрах, как ты, работают
dvolodin #
13:42
advertised capabilities, например
Dmitry1 #
13:42
На уровне доступа и распределения, гораздо больше проблем возникает из-за качества связи, чем по "загрузке" линий
dvolodin #
13:42
и bandwidth control
13:42
все зависит от доступа
Dmitry1 #
13:42
advertised capabilities - это очень нужно
dvolodin #
13:42
на docsis, может быть
13:42
у нас проблемы по другой причине в основном
Dmitry1 #
13:43
есть железки, в которых в дырку можно воткнуть как 1G SFP, так и 100M SFP
13:43
специально для тебя - 10G SFP+ и 1G SFP
13:43
и advertised capabilities тут очень помогает
dvolodin #
13:44
flow control - только в вендорских mib'ах
Dmitry1 #
13:44
bandwidth control - "резать" скорость на порту абонента
dvolodin #
13:44
bandwidth control - длинковский изврат
Dmitry1 #
13:45
TenGigabitEthernet4/4 is up, line protocol is up (connected)
13:45
Hardware is C6k 10000Mb 802.3, address is
evyscr #
13:45
пару лет назад я думал, что в ноке будет офигенная kb по всяким вендоровским извратам
Dmitry1 #
13:45
MTU 1500 bytes, BW 10000000 Kbit, DLY 10 usec,
13:46
Full-duplex, 10Gb/s
13:46
input flow-control is off, output flow-control is off
13:46
dvolodin: это похоже не длинк ?
dvolodin #
13:46
evyscr: их предостаточно
13:46
дим, ты про BW?
13:46
bandwidth на киске ничего не режет вообще-то ;)
Dmitry1 #
13:48
dvolodin: Дим, ты вообще, когда-нибудь пытался "резать" скорость абонентам меньше, чем 10G, как ты привык ?
dvolodin #
13:49
ну не на свичах доступа же :)
13:49
BRAS на то есть, пусть и режет
13:49
они же сначала торрентами канал зальют, потом удивляются, почему DNS не работает
Dmitry1 #
13:49
т.е. про 802.1x ты не в курсе ?
dvolodin #
13:50
это как раз не для операторских сетей :)
13:50
а корпоративщики и всякие wifi
Dmitry1 #
13:51
Т.е. мы пишем в описании NOC - если у вас "корпоративщики и всякие wifi" - то выкиньте NOC ?
zi_rus #
13:52
да,нахуй сразу
dvolodin #
13:52
нет, не пишем, я не вижу пока конкретики
13:53
flow control на некоторых железках на вход и на выход отдельно может настраиваться
13:53
а не вместе
Dmitry1 #
13:53
я же тебе выше задавал вопрос: "Дим, ты вообще, когда-нибудь пытался "резать" скорость абонентам меньше, чем 10G, как ты привык ?"
e_zombie #
13:53
:-D
Dmitry1 #
13:53
ключевое слово тут "резать". Не шейпить, а резать
zi_rus #
13:54
под корень
dvolodin #
13:54
они и режут под корень
13:54
:)
Dmitry1 #
13:54
Ладно, раз уж с первого раза не поняли, попытаюсь объяснить
dvolodin #
13:54
capabilities ты посмотришь при траблшутинге, я думаю
zi_rus #
13:54
dvolodin: слушай, а как нок с арендованными каналами работает?
dvolodin #
13:55
Dmitry1: давай конкретнее, я уже слишком старый, чтобы разъяснять, что я делал, а что не делал
Dmitry1 #
13:55
если на порту коммутатора включен rate-limit, то, необъодимо включить на порту flow control
dvolodin #
13:55
задача была -- получать расширенное состояние портов
13:56
как минимум для целей раскраски линка
13:56
что и сделали
Dmitry1 #
13:57
как мне поможет "раскраска линка" разрулить звонок от аьонента с заявкой "вконтакте тормозит" ?
dvolodin #
13:57
почему она должна тебе в этом помочь?
13:58
А вот action тебе поможет вполне
Dmitry1 #
13:58
а что у нас в NOC есть, чтобы помочь техподдержке узнать причину плохой скорости у абонента ?
dvolodin #
13:58
собрать нужную информацию
13:58
ну, например, валидаторы есть
13:58
можешь настроить проверку, что для rate-limit должен быть включен flow control
13:58
это не по звонку абонента надо делать, а до
14:01
есть хороший механизм, который проверяет правильность настроек
ufir #
14:02
диспетчер ?
zi_rus #
14:06
нок
evyscr #
14:07
network operations center?
14:08
noc-scheduler делает более одного коннекта к поцгресу
dvolodin #
14:08
есть механизм валидаторов
14:08
evyscr: да, он может
14:08
для каждого потока
zi_rus #
14:09
давайте переименум нок в цус
Dmitry1 #
14:09
dvolodin: Дим, вот передо мной открыт NOC. Где искать такой валидатор ?
zi_rus #
14:10
читайте документацию
dvolodin #
14:10
Dmitry1: validation rule
14:10
я на эту тему достаточно распинался
Dmitry1 #
14:11
там пусто
14:11
т.е. NOC это не умеет делать
evyscr #
14:11
два "вечных" idle in transaction - noc-notifier и noc-classifier
dvolodin #
14:12
Dmitry1: так создай
14:12
для начала сформулируй четко, что ты хочешь проверить
evyscr #
14:13
scheduler лочит sa_managedobject?
Dmitry1 #
14:13
dvolodin: разрулить звонок от абонента с заявкой "вконтакте тормозит" ?
14:13
куда нужно посмотреть техподдержке, чтобы выснить причину ?
dvolodin #
14:14
evyscr: не могу пока отловить, кто его лочит
14:14
дим, это не формулировка задачи
14:14
кнопка "зделать зашибись" в ноке есть, но она стоит денег
14:14
и немалых
Dmitry1 #
14:14
dvolodin: это то, чем 99% времени занимается техподдержка
dvolodin #
14:15
молодцы
evyscr #
14:15
ну scheduler походу и плодит все эти коннекшны
14:16
[main.jobs][fm.archive]
Dmitry1 #
14:19
dvolodin: так ты вроде пишешь NOC, чтобы им люди пользовались ? Или так, для развлечения ?
dvolodin #
14:19
хм
14:19
evyscr: а поставь на fm.archive тоже transaction = True
evyscr #
14:20
пока подожду
14:20
надо чтоб vc.update_cache побольше прогнало
dvolodin #
14:22
Dmitry1: какое все это имеет отношение к графикам?
Dmitry1 #
14:23
техподдержке неуогда сидеть и наблюдать за графиками
14:23
их интересует конкретный вопрос "вконтакте тормозит"
evyscr #
14:23
Dmitry1: а сейчас рисуются графики для начальства
dvolodin #
14:24
значит техподдержка сейчас нас не волнует
Dmitry1 #
14:24
dvolodin: ты прикалываешься ? Я ведь на форуме уже постил кучу дополнений к существующим интерфейсам, которые могли выдать значение boolean Alarm
14:25
т.е., к примеру, в get_portcahannel аларм означал, что канал развалился
14:25
в get_trd_copper_diag означал, что какая-то ошибка в диагностике
14:25
и т.п.
14:26
в get_dom_status - выход за допустимые значения уровней
14:26
Вот это то, что нужно для работы
14:26
А графики, я и в Cacti построить могу
dvolodin #
14:27
А кто-то не хочет какти, а хочет, чтобы нужные графики автоматом строились
14:27
равно как и карты
e_zombie #
14:29
Dmitry1: а брось в меня ссылкой.
Dmitry1 #
14:29
Вот тебе графики: http://i71.fastpic.ru/big/2015/0707/07/25351436b988d23eca1bf47cc73b8007.png
14:29
на них 24 часа в сутки пялится наша техподдкржка
zi_rus #
14:29
а автоматом на 10к портов могёшь?
Dmitry1 #
14:29
с результатом выхлопа - 0%
zi_rus #
14:30
не меньше кактуса выхлопа я тебе скажу
Dmitry1 #
14:30
e_zombie: форум то в дауне
dvolodin #
14:31
Dmitry1: а теперь представь, что у тебя 30 миллионов портов
14:31
много ты кактусом нарисуешь?
zi_rus #
14:31
dvolodin: я полагаю что на 30кк портов у меня будет не нок
Dmitry1 #
14:31
dvolodin: ты графики, что я привел выще видел ?
dvolodin #
14:31
zi_rus: зря так полагаешь
Dmitry1 #
14:31
Что ты о них можешь сказать ?
dvolodin #
14:32
что если у тебя есть понимание, как извлекать данные, в NOC их можно сделать за то же время, что и в кактусе
Dmitry1 #
14:32
Какие минимальные и максимальные значения SNR должны быть при модуляции QPSK, QAM16, QAM64 ?
abyrvalg #
14:33
zi_rus: На 10к портов автоматом можно заббиксом. :)
dvolodin #
14:33
https://bitbucket.org/nocproject/noc/src/de6b6937c7513e335406ecc618f46e0f6ccd36a7/pm/probes/generic/network/snmp_interface.py?at=default
e_zombie #
14:33
Dmitry1: у нас дрочат на график пппое сессий на брасах. так как 99% через них идёт. с той же эффективностью.
zi_rus #
14:33
dvolodin: а что должен полагать если когда я оставил работающий нок на прошлой работе, не прошло и полгода как сломался fm > events, постоянно проблемы с графиками и недавно мне звонили сказали при добавлении МО валится ошибка. не, спасибо, лучше
dvolodin #
14:33
Dmitry1: справочная величина
zi_rus #
14:34
нок саморазлагается
dvolodin #
14:34
abyrvalg: нельзя, заббикс ничего не знает про назначение портов
14:35
Дим, так какие проблемы с пробами-то?
Dmitry1 #
14:36
dvolodin: это справочная величина зависит от ширины канала (1.600 или 3.200 MHz), от модуляции, от количества оптических приемников, от количества CPE,
14:36
В результате выхлоп графика - 0%
dvolodin #
14:36
И кактус у тебя ее вычисляет?
abyrvalg #
14:36
dvolodin: Назначение можно из дескрипшнов брать, например. Или о чем речь?
dvolodin #
14:37
abyrvalg: вот тебе простой пример
Dmitry1 #
14:37
dvolodin: у нас есть скрипты в sa/profiles
dvolodin #
14:37
на интерфейсах между своими железками хочу раз в минуту мерять загрузку на вход и на выход и ошибки
Dmitry1 #
14:37
почему внутри этих скриптов нельзя добавить проверку на корректность выводимых значений
dvolodin #
14:37
на интерфейсах юриков - раз в пять минут загрузку
Dmitry1 #
14:38
и сигнализировать каким-то образом о некорректных значениях ?
dvolodin #
14:38
на интерфейсах физиков - раз в 15 минут ошибки
14:38
при этом новые железки подключаются, ну и клиенты подключаются и отключаются
14:38
и часть железок отдает данные только через CLI
abyrvalg #
14:39
Ну, у меня для разных интерфейсов разные триггеры, например.
14:39
Кастомный скрипт lld позволяет фильтровать интерфейсы по разным признакам.
Dmitry1 #
14:39
dvolodin: Дим, выйди из датацентра на улицу
dvolodin #
14:39
Dmitry1: задача скрипта - собирать даныне, а не анализировать
14:39
но если хочешь - сделай скрипт -- check_port
14:39
и пусть он либо говорит, что все ok, либо говорит, что там жопа
Dmitry1 #
14:39
dvolodin: а кто анализировать будет ? Техподдержка ?
dvolodin #
14:40
abyrvalg: допустим, что lldp не везде
14:40
а местами cdp
14:40
:)
14:40
не упрощай
Dmitry1 #
14:40
dvolodin: за нас уже все придумали
14:40
6509_core_switch#show interfaces transceiver
14:40
Transceiver monitoring is disabled for all interfaces.
14:40
If device is externally calibrated, only calibrated values are printed.
14:40
++ : high alarm, + : high warning, - : low warning, -- : low alarm.
abyrvalg #
14:41
dvolodin: Эм. Проблема в чем? Сделать скрипт lld, который будет дискаверить интерфейсы по CDP а не по SNMP?
Dmitry1 #
14:41
почему NOC не может выдать warning или alarm в скрипте get_dom_status ?
dvolodin #
14:41
и что ты найдешь по CDP?
14:42
Dmitry1: зачем в скрипте?
Dmitry1 #
14:42
а где ?
14:42
в графике ?
dvolodin #
14:42
железка сама в лог пишет
Dmitry1 #
14:42
железка в лог не пишет
abyrvalg #
14:43
dvolodin: Соседей. А что надо найти?
14:43
Сами устройства обнаруживаются сетевым обнаружением, достаточно гибкий инструмент. А интерфейсы на устройствах обнаруживаются по SNMP.
dvolodin #
14:43
а что тебе с тех соседей?
14:43
ну нет на железке snmp, и что?
Dmitry1 #
14:43
потому как, если она напишет в лог, то прийдет ебанный handler и в логах будут постоянные login/logout
abyrvalg #
14:43
А что на ней есть?
dvolodin #
14:44
ну пусть будет ssh
abyrvalg #
14:44
Ну ок, есть железка с ssh. Надо получить перечень интерфейсов?
dvolodin #
14:44
нет
abyrvalg #
14:44
А что?
dvolodin #
14:45
нужно понять, что делать с этими интерфейсами и зачем они
abyrvalg #
14:45
Я просто задачу эту виртуальную не понимаю.
14:45
Ну для этого сначала надо получить перечень.
dvolodin #
14:45
реальная задача в том, что zabbix -- просто система PM
14:45
и ей нужна внешняя inventory
14:46
а pm в noc настраивается по данным inventory noc
14:46
и первична там inventory
14:46
то есть данные о том, что есть
Dmitry1 #
14:47
которая не работает на 99% железок уровня ниже entarprise
abyrvalg #
14:47
Заббикс - гибкая система. И неплохо документированная, что позволяет ее допиливать под свои нужны.
evyscr #
14:47
вот документация - это да
zi_rus #
14:47
у нока есть этот чятик
dvolodin #
14:48
да, но самосвал не очень подходит для перевозки скота
14:48
просто разные назначения
zi_rus #
14:48
dvolodin: да ладно, ты просто не пробовал :)
evyscr #
14:48
пикчу с коровой в легковушке
zi_rus #
14:48
+1
dvolodin #
14:48
Ж)
evyscr #
14:49
гибкость заббикса - штука спорная
Dmitry1 #
14:49
dvolodin: ну так напиши на главной странице: "Не использовать на уронях ниже Core Level"
evyscr #
14:49
Dmitry1: я использую ниже
14:49
ЧЯДНТ?
e_zombie #
14:49
эээээ ну чё вы доебались то.
Dmitry1 #
14:49
evyscr: ты, или техподдержка ?
zi_rus #
14:49
dvolodin: я тебе утром трейс отправлял, можешь мне что-нибудь сказать, МО не могу удалить
evyscr #
14:49
И я тоже
abyrvalg #
14:50
Вот я заебался добавлять микротики на мониторинг - одним правилом их обнаруживаю и добавляю на мониториг с нужным шаблоном. Другим правилом обнаруживаю внешние
Dmitry1 #
14:50
или ты уже девушек из техподдержки научил строить запросы к postgresql ?
abyrvalg #
14:50
интерфейсы, добавляю на них метрики, триггеры. Третьим - обнаруживаю внутренние интерфейсы, на них только пара метрик, без триггеров. Все. Само обнаруживается, и
14:50
ставится на мониторинг.
14:50
Это я про заббикс, если шо.
evyscr #
14:50
abyrvalg: а мне приходилось ещё темплейты править/дописывать
abyrvalg #
14:51
Это само собой.
14:51
Но это только один раз сделать надо.
evyscr #
14:51
а сделать зависимости между триггерами в lld эти нехорошие люди не смогли
Dmitry1 #
14:51
У нас есть темплейты - куча SA скриптов,
abyrvalg #
14:51
evyscr: Это да, ушлепаны.
evyscr #
14:52
это, кстати, плохой пример
Dmitry1 #
14:52
Причем поддержка оборудования как бы не больше, чем в жругих подобных проектах
evyscr #
14:52
заббикс позволяет более одного темплейта
abyrvalg #
14:52
Ага, и один в другой включать.
Dmitry1 #
14:52
Только почему-то остальные модули NOC тупо игнорируют модуль SA
evyscr #
14:53
orly?
14:53
fm его почему-то использует
14:53
inv тоже
Dmitry1 #
14:53
И ходят берут данные с оборудования по какой-то нечеловеческой логике
dvolodin #
14:53
опять ты за свое
Dmitry1 #
14:53
evyscr: fm его почему-то использует
evyscr #
14:53
Кстати, а у нас DxS/get_interfaces представляется примером нечеловеческой логики
Dmitry1 #
14:54
это каким образом ?
dvolodin #
14:54
просто у димы у каждого свича свой хозяин
14:54
который орет на то, что NOC зашел на железку
evyscr #
14:54
тем, что отваливается по таймауту на маленьких свичах
14:54
на том месте, которое ему совершенно не нужно
Dmitry1 #
14:56
evyscr: это проблемы CLI Paging длинка
zi_rus #
14:56
а я думал опять нок виноват
Dmitry1 #
14:57
dvolodin: я тебе уже как пример приводил "Action command", который делает свои команды ping, reboot и т.п., хотя в SA/profiles есть уже готовые
zi_rus #
14:58
парадигма изменилась
Dmitry1 #
14:59
а еще есть pm/probes, в которых тоже почему-то оказались куски от вендоров, которые должны быть в sa/profiles
zi_rus #
14:59
а это да
14:59
это я говорил
14:59
Володин надо Вендорспецифик весь вытащить в отдельный раздел
evyscr #
15:00
Dmitry1: а кто-то, помнится, всеми силами противился появлению управления по snmp
Dmitry1 #
15:00
этот раздел называется sa/profiles
zi_rus #
15:00
а он и сейчас против, длинки виснут :D
evyscr #
15:01
а ещё он против telnet
15:02
логично
15:02
две неведомые хуиты одновременно - многовато
e_zombie #
15:02
две не работающие хуиты одновременно
evyscr #
15:04
e_zombie: у тебя поцгрес на нокомашине или вынесенный?
e_zombie #
15:04
локально
15:04
9,4
evyscr #
15:04
пропиши шоле host = 127.0.0.1 в noc.conf
Dmitry1 #
15:04
Artem Kolpakov писал(а):В 1.02.B062 исправлена перезагрузка коммутатора при большом количестве одновременных snmp запросов
15:04
u234 писал(а):Начали внедрять мониторинг Zabbix и заметили такую вещь. На коммутаторах с прошивкой 1.01.B051 и 1.02.B060 при выполнении длинных snmp bulk запросов, состоящие из более чем 49 OID, они (коммутаторы) перезагружаются.
15:04
Исправили криво, обновил на 1.02.B062, включил в заббикс опять bulk snmp запросы. Перестал перегружатся постоянно, но через час перезагрузился. Такая ситуация на всех 3 коммутаторах с этой прошивкой. Аптайм не более 60 минут.
15:04
На графике мониторинга аптайма видно, что ребут происходит раз в час.
15:04
e_zombie #
15:04
ииииии?
evyscr #
15:05
это мне?
e_zombie #
15:05
да
Dmitry1 #
15:05
zi_rus: источник: http://forum.dlink.ru/viewtopic.php?f=2&t=160307&start=360
evyscr #
15:05
смотреть будешь по портам, кто что хавает
e_zombie #
15:06
# Set to empty string for localhost
15:06
host = 127.0.0.1
evyscr #
15:06
на сейчас подозрение на шедулер
Dmitry1 #
15:07
Стек добавлен в систему мониторинга zabbix. По SNMP v2 со стека снимаются следующие данные:
15:07
ifInOctets
15:07
ifOutOctets
15:07
ifInPps
15:07
ifOutPps
15:07
ifInDrop
15:07
ifOutDrop
15:07
В сумме получается что снимается свыше 500 значений. Значения снимаются раз в 30 секунд.
15:07
При каждом снятии значений по SNMP нагрузка на процессоры коммутаторов взлетает до 60-65%, хотя при обычной работе (при отключенном мониторинге) на процессоре всего 30%. К примеру, на приложенном графике DGS-3420-52T.png видна волно образная загрузка процессор
15:07
Вопрос.
15:07
Из-за чего может быть такая большая нагрузка на процессоры при снятии значений по SNMP?
evyscr #
15:07
ну ежели уже прописал - так смотри через pg_locks, pg_stat_activity, netstat -nap | grep 5432, ps ax
Dmitry1 #
15:07
взято: http://forum.dlink.ru/viewtopic.php?f=2&t=169296
evyscr #
15:08
Dmitry1: а теперь пример не с длинком
15:08
для них ты тоже сопротивляешься
Dmitry1 #
15:09
давай пример
evyscr #
15:09
и вообще, ты решаешь за других
15:09
не то, что не хочешь сам использовать, а "сам не буду и другим не дам"
Dmitry1 #
15:10
evyscr: я пытаюсь сделать так, чтобы без изменений скрипт заработал на как можно большем количестве коммутаторов
evyscr #
15:10
это хреновейший подхо
15:10
д
Dmitry1 #
15:10
эээ ?
15:10
Чем эе это плохо ?
evyscr #
15:11
перечитай, что я раньше написал
15:11
17:54:25 < evyscr> тем, что отваливается по таймауту на маленьких свичах
15:11
17:54:57 < evyscr> на том месте, которое ему совершенно не нужно
15:11
КОТОРОЕ ЕМУ СОВЕРШЕННО НЕ НУЖНО, МАРКС!
dvolodin #
15:12
zi_rus: не видел
Dmitry1 #
15:14
evyscr: ты пытался таймаут для выполнения скрипта увеличить ?
evyscr #
15:16
я-то это могу сделать. а остальные?
Dmitry1 #
15:16
evyscr: так у нас уже давно есть адаптивные таймауты
evyscr #
15:16
но прелесть в том, что немало времени тратится на ненужную часть
Dmitry1 #
15:17
какую именно ?
evyscr #
15:17
потому что в более других коммутаторах она нужна
15:17
шоб я вспомнил через n месяцев после того, как исправил и забыл
dvolodin #
15:19
ладно, кто новые схемы посмотрел?
15:19
по мне, выглядят вполне няшно
Dmitry1 #
15:19
ну так постарайся вспомнить. Если это реально исправляет какие-то глюки - то закоммичу
SS__ #
18:51
мда
18:51
активато жрет чуть больше чем дохера проца
18:51
ps aux |grep pytho
18:51
zabbix 11564 0.0 0.0 11688 2176 pts/5 S+ 21:50 0:00 grep --color=auto pytho
18:51
root 25102 62.6 1.6 22438752 269780 ? Sl 16:34 197:57 /opt/noc/bin/python ./scripts/noc-activator.py launch -c etc/noc-activator.conf -i 0
18:51
root 25103 1383 1.7 28911904 288052 ? Sl 16:34 4373:26 /opt/noc/bin/python ./scripts/noc-activator.py launch -c etc/noc-activator.conf -i 1
18:51
root 25105 948 3.1 28525408 506884 ? Sl 16:34 2999:33 /opt/noc/bin/python ./scripts/noc-activator.py launch -c etc/noc-activator.conf -i 3
18:51
zabbix@zabbix:~$
18:51
ps aux |grep pytho
18:51
zabbix 11564 0.0 0.0 11688 2176 pts/5 S+ 21:50 0:00 grep --color=auto pytho
18:51
root 25102 62.6 1.6 22438752 269780 ? Sl 16:34 197:57 /opt/noc/bin/python ./scripts/noc-activator.py launch -c etc/noc-activator.conf -i 0
18:51
root 25103 1383 1.7 28911904 288052 ? Sl 16:34 4373:26 /opt/noc/bin/python ./scripts/noc-activator.py launch -c etc/noc-activator.conf -i 1
18:51
root 25105 948 3.1 28525408 506884 ? Sl 16:34 2999:33 /opt/noc/bin/python ./scripts/noc-activator.py launch -c etc/noc-activator.conf -i 3
18:51
zabbix@zabbix:~$
18:51
упс
18:52
один раз хотел, третий столбец это %
18:53
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
18:53
25103 root 20 0 27.573g 288052 7120 S 1870 1.8 4397:52 python
18:53
25105 root 20 0 27.204g 506884 7076 S 1269 3.1 3016:03 python
18:53
25102 root 20 0 21.399g 269780 7168 S 95.5 1.7 198:45.48 python
18:53
3000% проца карл!
Tweet
Share this page
Share this page: Tweet