About Forum Blogs NOC Docs Downloads KB Issues Code CI Registration

nocproject.org

#nocproject.org at irc.freenode.net log.
Back to nocproject.org Back to IRC log index
Date: 09.10.2012
zi_rus #
05:27
народ, а кто-нибудь ФМ в ноке пользуется, есть небольшой вопросик по давителю повторных сообщений
05:36
dvolodin, привет, подскажи пожалуйста про ФМ. я вчера перенаправил сислог на нок, было много сообщений unknown source, несколько распознаных сообщений, а потом наступила тишина, я настроил каталист как надо, имитирую изменение конфига, он генерит сообщение "%SYS
05:36
-5-CONFIG_I: Configured from console by", но в ФМ Events тишина, по этой железке кроме пинг ОК других соощений нет, и я не пойму, это так задумано, или где-то косяк у меня или косяк в ноке
dvolodin #
05:39
классификатор посмотри
05:39
и вообще ресурсы системы проверь
mikevlz #
05:40
теперь у меня все сожрал дискавери...
zi_rus #
05:44
dvolodin, еvents: 51, failed: 0, deleted: 0, suppressed: 51 - это я смотрел, не пойму почему он давит, и попадает ли сюда "%SYS-5-CONFIG_I, ведь по нему хотя бы один, но должен быть
dvolodin #
05:44
задавил он у тебя их как повторы
zi_rus #
05:46
я попробую причесать каталисты, посмотрю что изменится, но все же по тестовому каталисту нет даже одного сообщения, если только он не схватил не классифицированное из-за unknown source и теперь классифицированные давит потому что они совпадают
mikevlz #
05:49
пливеты
05:49
кцтате
05:49
noc-sync уже два раза стопанулся на 16 минуте работы. К чему бы это?
06:03
real 16m40.242s
06:03
user 0m0.239s
06:03
sys 0m0.070s
06:04
третий раз. 16 минут 40 секунд. Как-то очень подозрительно =)
dvolodin #
06:05
системные лимиты?
mikevlz #
06:06
от рута запускается, какие лимиты?
06:07
http://dpaste.org/WIDWV/
06:07
на всякий
dvolodin #
06:08
а в логах что?
mikevlz #
06:09
очередной обмен сообщениями, потом STOP
06:09
без трейсов и прочих радостей
dvolodin #
06:16
save as new вроде профиксил
zi_rus #
06:17
ок
06:17
dvolodin, а у тебя работает кнопка save в interface profile?
06:18
ой, только что само заработало
dvolodin #
06:20
zi_rus: да, работает
zi_rus #
06:22
фигня какая-то, создал профиль, жму сохранить, никак не реагирует, закрыл, заново создал, нормально прошло
dvolodin #
06:23
с кешами проблемы нет?
zi_rus #
06:25
не знаю, не должно быть
06:31
Dmitry1, подхватывай, я там еще issue для тебя накидал
Dmitry1 #
06:31
ага
zi_rus #
06:35
dvolodin, а как решить проблему, я не хочу чтобы поднимались алармы по LInk Down, но этих интерфейсов нет в инвентори. это пидимо виртуальные интерфейсы типа As29, As31...
mikevlz #
06:37
dvolodin: понаблюдал топом за процессом. SIZE порядка 93Мбайт, RES дошел до 14350кбайт, после этого время вышло :)
freeseacher #
06:44
dvolodin, NOC-742 решение с SIGKILL работает.
acid232_ #
06:51
привет
06:51
а вчера вроде говорили про такое <class 'mongoengine.base.ValidationError'>\u000aUnable to dereference <class 'noc.inv.models.interfac
06:51
e.Interface'>:4fa3a65b0825545a9e000d55
06:52
интерфейс пропал?
06:53
свичпорты в инвентори продублировались но с разными наборами vlan
06:53
на хуавеях
dvolodin #
06:54
да
acid232_ #
06:54
как лечить? дропнуть их из монги?
dvolodin #
06:54
угу
06:55
надо будет тулзу для валидации слабать
acid232_ #
06:56
а в каком коллекшне хранятся свичпорты?
lexus-omsk #
06:58
acid232_: noc.subinterfaces
acid232_ #
07:00
а вот и нет, у меня там svi
07:01
хотя кто его знает
07:02
для монги нет веб-морды какой-то?
lexus-omsk #
07:03
что svi, что switchport - всё там должно быть... вроде :)
07:03
какой-то веб есть встроенный в монгу, включается в конфиге, но не знаю, тот ли это веб, что нужен
zi_rus #
07:05
а кто помнит, какое решение было сделано чтобы отключить алармы для интерфейсов которых нет в инвентори?
acid232_ #
07:06
а оно было?
lexus-omsk #
07:06
у меня для этого свитчи не шлют трапы, которые не надо
acid232_ #
07:06
ну можно северити понизить
07:07
но это как бы не дело
lexus-omsk #
07:07
т.е. все свитчи доступа по сути
zi_rus #
07:07
это не совсем свич
acid232_ #
07:07
я прошелся по доступу через noc shell и поставил профиль access
07:07
но правда только по хуавею
lexus-omsk #
07:07
так нету этого интерфейса если в базе... я так понял в этом проблема
zi_rus #
07:08
да, в этом и проблема
07:10
просто, кто-то уже этот вопрос поднимал, думаю, может придумали тогда чего
acid232_ #
07:14
как удалить свичпорты из монги - db.noc.subinterfaces.remove( { name: { $regex: '^Ethernet0/0/*' } } );
07:14
я думаю нок их нанюхает снова
mikevlz #
07:14
dvolodin: NOC-748 =)
dvolodin #
07:15
lexus-omsk: web там -- для статистики
07:16
n acid232_ : name: /..../
acid232_ #
07:17
это был не вопрос, а так, чтобы осталось, гугл исправно индексирует логи irc
freeseacher #
07:20
dvolodin, эм. чего то не так с заданием dns_touch.
07:21
1016 писем в папке noc/dns
07:21
вс всех дифах инкремент серийника.
07:21
и все
dvolodin #
07:22
разовое
freeseacher #
07:22
нет
dvolodin #
07:22
или регулярно?
freeseacher #
07:22
отнюдь
dvolodin #
07:22
тупо мотает серийники на всех зонах?
freeseacher #
07:22
зоны всего 4. а писсем 1016.
07:22
тупо мотает
mikevlz #
07:22
=)
freeseacher #
07:23
отключение дискавери не помогло :(
mikevlz #
07:23
а расписание dns-pull?
freeseacher #
07:24
раз в 300 секунд.
07:24
но непохоже
07:25
12:41 потом 12:45 потом 13:01
dvolodin #
07:25
freeseacher: с новой схемой или со старой?
freeseacher #
07:25
эм ни с какой.
07:25
на боевой инсталяции заведены зоны просто позырить дабы.
07:25
не применены никуда
07:27
апдейт уж самый последний стоит
acid232_ #
07:44
dvolodin: save as new у меня не работает
zi_rus #
07:50
dvolodin, да кстати у меня также намотал, зон у меня 256, но терроризировал только 2 из них
07:50
4к писем
freeseacher #
07:57
а вот сдвиг задания на pull/push помог.
07:57
пока больше не шлет.
dvolodin #
07:58
новый механизм сам по себе не будет мотать serial
07:58
а вот в комбинации со старым - пока не скажу
freeseacher #
07:58
ну тач зоны вызывался
dvolodin #
08:20
тач зоны отложен на 5 секунд и сдвигается
08:20
а вот serial, да
08:21
его крутит и старый механизм, и job
08:22
logging.debug("DNS.global_pull: Zone %s changed" % z.name)
08:22
z.serial = z.next_serial
08:22
z.save()
08:22
в cm/models.py
08:22
вот тут и touch дергается
mikevlz #
08:23
так может не сам тач откладывать, а вообще все изщменения в зону?
08:23
да, с новым механизмом кому-нить бы проверить на живом тазике, только ли у меня эта задница с остановкой Noc-sync
dvolodin #
08:24
и дальше они по кругу молотить будут
08:24
уже проверили в 2 местах
mikevlz #
08:24
я один такой?
dvolodin #
08:24
при отключенном старом механизме нормально все
mikevlz #
08:24
как старый механизм вырубить?
08:25
dns_push уже отключен
dvolodin #
08:27
dns_pull отключить
mikevlz #
08:28
отключил, посмотрю
acid232_ #
08:36
а как бы посмотреть почему LA возросло до 6 не так давно кстати
08:37
в top - python + postgres
Dmitry1 #
08:42
у меня все логи забиты сообщениями
08:42
2012-10-09 11:32:41,823 Cancelling stale script DLink.DxS.get_interface_status(10.116.0.39)
08:42
2012-10-09 11:32:41,823 [script-10.116.0.39-DLink.DxS.get_interface_status] Trying to kill already dead thread
08:42
2012-10-09 11:32:41,823 Cancelling stale script DLink.DxS.get_interface_status(10.116.0.39)
08:42
2012-10-09 11:32:41,823 [script-10.116.0.39-DLink.DxS.get_interface_status] Trying to kill already dead thread
08:42
что сделать, чтобы прибить, наконец, этот скрипт ?
acid232_ #
08:42
еще летом noc как-то пошустрее ворочался
mikevlz #
08:48
dvolodin: не помогло. noc-sync все-равно свалился через 16 минут 41 секунду.
dvolodin #
08:49
запустил у себя, посмотрим
mikevlz #
08:51
и эта, не пора ли настраивать кеш-бэкенд, чтоб веб-морда хоть как-то ворочалась? а то тупит нереально из-за того, что дискавери объедается
09:00
dvolodin: для чистоты эксперимента, поллер kevent/kqueue
acid232_ #
09:06
да, дискавери что-то тупит мрачновато
09:08
а можно ограничить количество процессов дискавери?
dvolodin #
09:09
2012-10-09 13:08:28,352 STOP
09:09
0.395u 0.216s 16:41.39 0.0% 0+0k 0+2io 0pf+0w
mikevlz #
09:09
опа...
09:10
само свалилось?
dvolodin #
09:10
таки да
mikevlz #
09:10
трейсов нет, инфы нет, просто стоп на 16:4[01]
acid232_ #
09:10
16 минут 40 секунд это 1000 секунд
dvolodin #
09:10
блин
09:10
!
09:11
мать-мать-мать
mikevlz #
09:11
бугага
acid232_ #
09:11
к.о.
mikevlz #
09:11
там же слип :)
09:11
на 1000 секунд
09:11
в коде демона
dvolodin #
09:11
def run(self):
09:11
self.stomp_client = ThreadedSTOMPClient(
09:11
self.stomp_host, self.stomp_port,
09:11
client_id=self.stomp_client_id)
09:11
self.stomp_client.start()
09:11
for c in self.channels:
09:11
self.channels[c].init()
09:11
import time
09:11
time.sleep(1000)
09:11
:)
acid232_ #
09:13
помогите теперь мне пожалуйста :)
09:13
может отключить что-то или увеличить интервал дискавери
dvolodin #
09:15
mikevlz: пофиксил
09:16
забавная ляпа
mikevlz #
09:16
acid232_: initial_submit_* вроде то, что тебе нужно
09:16
в noc.conf
09:16
dvolodin: кросафчег
09:16
ща обновлюсь, проверю
dvolodin #
09:16
совсем из головы вылетело
09:16
надо было написать "Триальная версия, отправьте sms на короткий номер"
mikevlz #
09:16
ведь правильно говорил - не подпускать погроммистов к продакшену
09:16
угу
dvolodin #
09:17
mikevlz: здесь есть погроммисты?
acid232_ #
09:17
mikevlz: а где количество одновременных задач?
mikevlz #
09:17
dvolodin: а ты хто?
09:17
acid232_: concurency ?
09:18
по описанию оно вроде отвечает за число одновременно планируемых джобов
dvolodin #
09:18
mikevlz: хм, а в глаз?
acid232_ #
09:18
типа как initial_submit_concurrency = 5
09:18
т.е. +- к-во ядер проца
mikevlz #
09:18
dvolodin: а за что?
09:19
acid232_: попробуй
dvolodin #
09:19
за дело
09:19
acid232_: не поможет тебе это, совсем не тот параметр
acid232_ #
09:19
или к-во активаторов?
mikevlz #
09:19
dvolodin: а я без злого умысла - раз, два - достать тяжко будет, далековато
dvolodin #
09:19
initial submit -- это процесс при котором появляются новые job'ы
09:20
то есть, например, мы создали новый management object
09:20
прежде чем по нему пойдут задачи, они должны быть запланированы
09:20
вот этим и занимается initial submit
mikevlz #
09:21
хорошо, когда доки есть...
acid232_ #
09:22
так что уменьшть к-во активаторов?
mikevlz #
09:26
сдернул, обновил, смотрю
zi_rus #
10:36
Dmitry1, ты тут?
Dmitry1 #
10:36
да
mikevlz #
10:37
блядь...
zi_rus #
10:37
слушай, есть такое предложение, когда bgp падает на одной железке, но потом поднимается на другой то аларм не закрывается - не порядок
Dmitry1 #
10:38
знаю
mikevlz #
10:38
dvolodin: а это нормально, что из Main > Setup > Schedules у меня через неустановленное время пропадает pyRule:Make FQDN?
zi_rus #
10:38
правило для этого разве нельзя нарисовать?
Dmitry1 #
10:38
я потихоньку давлю dvolodin'а, чтобы он сделал datasources с поиском по IP
10:39
Т.е. у нас сейчас в datasources есть описание интерфейса, имя VLAN'а
zi_rus #
10:42
просто в сообщении передается neighbor ip, можно было бы по нему матчить, и не важно какая железка прислала up, а какая - down
Dmitry1 #
10:44
ну так к этому и веду, чтобы в FM была возможность по IP найти железку
dvolodin #
11:04
вы уверены, что это возможно?
11:05
как случай MPLS PE - CE по BGP отслеживать?
mikevlz #
11:07
dvolodin: обижаешься все еще?
dvolodin #
11:07
да
11:07
сегодня явно не мой день :)
mikevlz #
11:07
Извините, дядя Дима. Я больше не буду
11:08
я понял, что называть погроммистом разработчика такой сложной системы - это портить себе карму и кривить чакры
11:09
я вот тоже настроил BGP, а в ACL пира не добавил. Еще и объяснял гуглу, что это у них руки из задницы...
dvolodin #
11:10
я последний раз программистом был году в 95-м, или 96-м, не помню уже Ж)
mikevlz #
11:10
а теперь кем?
zi_rus #
11:14
он же говорил, теперь он начальник
11:15
к нему обращаться "Большая шишка"
11:15
;)
mikevlz #
11:15
:)
zi_rus #
11:16
dvolodin, а можно пример сообщения когда падает PE-CE сессия?
11:16
мне кажется там vrf еще указывается
11:18
вот что нагуглил
11:18
%BGP-5-ADJCHANGE: neighbor 10.1.2.3 vpn vrf inet Down
11:18
не вижу проблемы
dvolodin #
11:30
http://www.linkedin.com/in/dvolodin
11:30
primerno tak
zi_rus #
11:49
в каком логе посмотреть, доходят ли до нока сислоги? не пойму от одной железки сообщений не видно, непонятно
dvolodin #
11:50
а он у тебя на том интерфейсе слушает?
zi_rus #
11:50
кто он?
11:51
все, по крайней мере большинство доходят кроме одной
11:51
я перенаправляю с другого сервера
11:51
на том сервере записи в файле есть
11:51
хочу узнать есть ли у нока на входе эти сообщения, или они не перенаправляются
11:53
tcpdump глянул, по входу ничего нет, буду разбираться
dvolodin #
11:55
черт, опять телепатический канал сбора данных поломали, пойдем фиксить Ж)
zi_rus #
11:56
странно, вообще нет сообщений, syslog-ng тупо перестает отправлять данные
dvolodin #
11:56
это странно, да
zi_rus #
11:56
рестартанул его и побежало
11:57
а в локальный файл пишет без перерыва, только в сеть не отправляет
dvolodin #
11:59
что-то похожее помню
11:59
кстати, как вариант еще
11:59
можно сделать локальных агентов
11:59
которые будут читать файлы и по stomp посылать сообщения в базу
zi_rus #
12:00
это излишне, надо полагать что нок является центральным и единственным сервером
12:00
у меня переходный период, пока нок не умеет все что мне надо
dvolodin #
12:03
ну умеет он всяк больше, чем syslog :)
zi_rus #
12:04
dvolodin, файл сислога можно грепать самыми извращенными способами, а что нок?
12:05
а нок макисмум сможет выдать список по МО
Dmitry1 #
12:10
Тут меня огорошили: народ ищет за $1000 железку, поддерживающую до 3-х BGP сессий, OSPF, и имеющую 2 10G порта.
e_zombie #
12:11
,
12:11
,
mikevlz #
12:12
а какие права надо дать пользователю, чтоб мог добавить/отредактировать адреса?
12:12
кнопки Add Address нет, свободные адреса неактивны
zi_rus #
12:15
mikevlz, надо ipam > setup > prefix access
mikevlz #
12:15
есть он в этом префиксе
dvolodin #
12:16
Dmitry1: и при этом хотят 512k ipv4 префиксов минимум?
Dmitry1 #
12:17
не згаю
12:17
вроде как 8-16k
e_zombie #
12:18
dvolodin: http://pastebin.com/YG0QgTuz не лечится
dvolodin #
12:18
рецепт прост -- старый шеститонник на ebay
mikevlz #
12:21
все, порешалось
Dmitry1 #
12:25
старый шеститонник обычно идет без линейных карт. а с линейными картами получается гораздо дороже
mikevlz #
12:27
=)
12:28
шеститонник вещь хорошая
12:28
даже без линейных карт, в нем жить можно, если он на 13 слотов
Dmitry1 #
12:29
и стоит, даже б.у. больше $1000. Только что специально на e-bay смотрел
dvolodin #
12:31
Force10 S60, кстати
Dmitry1 #
12:32
цена?
12:33
Плюс, если имеется ввиду BGP и OSPF - то будет в основном L3 трафик, а не L2
dvolodin #
12:33
ebay
Dmitry1 #
12:33
Т.е. свич загнется. Нужно роутер.
zi_rus #
12:53
Dmitry1, 3627 это свич или роутер?
Dmitry1 #
12:53
свич
mikevlz #
12:53
роутер это DIR100 =)
zi_rus #
12:53
л3 умеет? загибается?
Dmitry1 #
12:53
не SOHO роутеров у D-Link'а dвообще нету
zi_rus #
12:53
вот и 6500 также
Dmitry1 #
12:54
L3 у него через CPU идет, поэтому любой broadcast или multicast шторм, SNMP запросы и т.п., тупо ложат весь L3 трафик
zi_rus #
12:55
нормально у него все хардварно свичуется
12:55
по крайней мере у 3627G
12:56
его кладет то что на CPU идет
12:56
а для это специально есть enable cpu_rx_rate_control
12:58
Dmitry1, глянь, я там за сегодня issue с сислогами еще накидал
Dmitry1 #
12:58
видел
zi_rus #
13:02
и ничего не забрал, и правил нету
13:02
новых
Dmitry1 #
13:02
zi_rus: cpu_rx_rate_control позволяет резать исходящий трафик. Входящий редется на портах.
zi_rus #
13:02
Dmitry1, я тебе по секрету скажу RX - значит входящий
Dmitry1 #
13:02
Т.е. кроме PCF этот свич еще умеет и резать трафик по сервисам. Вот для образования исходящей очереди и существует cpu_rx_rate_control, который тоже неслабо жрет ресурсы CPU
zi_rus #
13:02
cpu_rx_rate_control - оганичивает трафик идущий на CPU
Dmitry1 #
13:03
не весь трафик, а именно тот, который в софтварных очередях
13:04
а софтварные очереди - это rate-limit в зависимости от сервиса
13:09
пример:
13:09
config access_profile profile_id 1 add access_id 1 ip tcp dst_port 80 port 1 permit rx_rate 100 counter enable
13:11
zi_rus: Вот именно этими очередями и управляет cpu_rx_rate_control
13:11
Кстати, там еще вроде есть команда, типа show flow_meter, посмотреть который текущие очереди можно
zi_rus #
13:11
Purpose Used to set CPU receiving rate as predefined limit.
Dmitry1 #
13:12
да
zi_rus #
13:12
МОЖЕТ быть под это и попадают еще какие-то сотварные очереди, но все что идет хардварно - так и идет
Dmitry1 #
13:13
ты этот поток , засовываешь в одну из 3-х очередей, которые, в свою очередь контролирует CPU
13:13
Это корявая попытка сделать шейпинг вместо rate-limit
13:14
Т.е. стандартное поведение резалки D-Link - это rate-limit
13:15
Для шейпинга сделали 3 софтварные очереди, которые обрабатывает CPU
13:19
Стандартные 7 классов QoS формируются в 3 очереди, которые могут обрабатываться как аппаратно, так и программно
13:23
делается это так
dvolodin #
13:23
это какие грибы они ели?
zi_rus #
13:23
не буду спорить
Dmitry1 #
13:23
config scheduling_mechanism ports 1 strict - аппаратная очередь
zi_rus #
13:24
а есть какая-то ситуация когда алармы с мак флапами сами закроются?
Dmitry1 #
13:24
config scheduling_mechanism ports 1 weight_fair - программная
13:26
zi_rus: А как они закрыться могут? Закрывающего ивента ведь нету.
zi_rus #
13:27
да я и не уверен что он открываться должен
13:27
dvolodin, нок не смог схавать такой поток http://pastebin.com/6kVyCGZ5
Dmitry1 #
13:27
почему? MAC Flap - это где-то петля на оборудовании
zi_rus #
13:28
совершенно не обязательно
dvolodin #
13:28
zi_rus: почему не смог?
zi_rus #
13:28
в ивентах не вижу
13:29
падение физики отработал, а этих нет
13:29
вернее тут ап, а еще перед этим был down
13:30
или он поумнел и сразу связал все в одну проблему?
Dmitry1 #
13:31
блин, не могу найти, где в DGS-3627 стандартные 7 очередей QoS преобразовываются в 3 аппаратные
dvolodin #
13:31
а ты посмотри
zi_rus #
13:33
кто? куда?
Dmitry1 #
13:38
в DES-3010 была команда "show cos tos", где можно было посмотреть соответствие TOS одной из 4-х очередей
13:38
На DGS-3627 не нахожу такого
zi_rus #
13:41
show 802.1p user_priority
Dmitry1 #
13:43
Хм. Похоже на DGS-3627 7 аппаратных очередей. Только бы узнать, как эти аппаратные очередт транслируются в программные
13:43
На CPU три программные очереди с COS 0,1,2
13:44
На портах по 7 аппаратных, с COS 0,1,2,3,4,5,6
13:45
Короче - это загадка D-Link, которую разгадать очень трудно
dvolodin #
13:45
обычно с CPU идет в 7-ю все
13:45
в нее кладутся всякие STP и прочая нечисть
13:46
чтобы при перегрузке линка дерево не развалилвалось
Dmitry1 #
13:48
В DGS-3627 это аппаратно прибито. Все пакеты, уходящие с CPU имеют TOS 7
dvolodin #
13:49
это у всех так
Dmitry1 #
13:49
В DES-3200 по умолчанию стоит 0, но с помощью "control_pkt" это можно регулировать
dvolodin #
13:49
ну или в 3-ю очередь, если их 4
Dmitry1 #
13:50
D-Link и тут отличился :)
13:51
DES-3200-26:5#show control_pkt
13:51
Command: show control_pkt
13:51
Protocol Priority DSCP
13:51
--------- -------- ------
13:51
igmp None None
13:51
vrrp None None
13:51
rip None None
13:51
pim None None
13:51
dvmrp None None
13:51
ospf None None
13:51
mld None None
13:51
ipv6 pim None None
13:51
ipv6 ospf None None
13:51
ripng None None
13:51
nd None None
13:51
Success.
Tweet
Share this page
Share this page: Tweet