nocproject.org
03:58
кто использует кутеки на доступе? глючнее чем длинки?
06:00
утро добрым не бывает
06:00
вот именно, у меня с 15-го числа не собираются конфиги
06:00
Activator pool is down пишет
06:00
ничего за эти два дня на канале не писали ?
06:01
misak: а из SA\MO\Edit discovery руками запускается?
06:01
(и вроде не писали такого)
06:02
т.е. не запускается?
06:02
у меня так было с новым МО
06:03
перешедуливал программно
06:03
и не факт что это помогло
06:08
потер логи, запустил заново
06:08
посмотрю что
06:09
но есть непонятные ошибки, пока что не связанные
06:11
начало собирать вроде-бы
06:12
[noc.lib.nbsocket.basesocket] [Ping4Socket] Failed to create ping socket. Check process permissions - а вот с этим как бороться кто знает?
06:19
а еще эти две ошибки
06:19
06:19
06:24
активатор надо запускать от рута, это первая проблема
06:26
misak, ты тоже инструкцию не до конца читаешь?
06:27
zi_rus: просто не успеваю все логи канала читать
06:27
нашел уже все
06:28
работы у меня много, как ни банально это не звучит
06:36
TSergey: а как ты INTERNAL SERVER ERROR победил?
06:49
dvolodin, пируль при стандартной работе и при запуске через noc shell может давать разные результаты?
06:50
а вот дает
06:51
у меня валидатор конфига выдает
06:51
interface FastEthernet0/18
06:51
no mac access-group NOVRRP in
06:51
interface FastEthernet0/13
06:51
no mac access-group NOVRRP in
06:51
interface FastEthernet0/16
06:51
no mac access-group NOVRRP in
06:51
interface FastEthernet0/17
06:51
no mac access-group NOVRRP in
06:51
interface FastEthernet0/14
06:51
no mac access-group NOVRRP in
06:52
хотя я в коде сделал костыль чтобы эта и некоторые другие настройки игнорились
06:52
с консоли все нормально
06:53
m3g_ignore_config = set([
06:53
'description ',
06:53
'switchport mode',
06:53
'switchport trunk allowed vlan',
06:53
'mac access-group NOVRRP in',
06:53
'speed ',
06:53
'duplex ',
06:53
'switchport access vlan',
06:53
'l2protocol-tunnel ',
06:53
'media-type',
06:53
'shutdown',
06:53
'channel-group',
06:53
'port-type eni',
06:53
])
06:53
все эти настройки игнорятся
06:54
а при сборе конфига с железок тоже все работает
06:55
но почему-то пропускает NOVRRP и предлагает его удалить
06:56
подозрение что что-то залипло
06:56
потому что эту строчку я добавил последней
06:58
06:59
TSergey: у меня кутеков 1500 стоит. ну не знаю как длинки , но работает. но через анус. если там айпитиви.
06:59
кютеки второй месяц ищут баги у себя.
07:01
e_zombie1: спасиб
07:01
мы видимо начинаем на этих граблях прыгать
07:02
dvolodin, есть варианты как можно разлипнуть пируль?
07:02
если у тебя такое же гавно типа 2800 и 8200 то главное профиль для него ставь который qsw.2800 а не тот что идёт стандартно
07:02
e_zombie1: зная наши "надмозги", может еще передумают
07:03
и спасибо за советы, буду спрашивать
07:03
ну по факту вариантов у тебя почти нету. это типа русская контора.
07:03
"8[12:36] misak: TSergey: а как ты INTERNAL SERVER ERROR победил?"
07:03
это про пробы-метрики?
07:04
хотяи п делают всё в китае
07:04
TSergey: да, но я создал дефолтные, вроде-бы все ок сейчас
07:04
e_zombie1: наши почему-то думают, что кутеки будут дешевле длинков
07:04
misak: ок
07:05
ну это сколько денег занесут.
07:05
у нас хотябы есть представительство длинка под боком и чуть что - сразу мордой об стол.
07:06
длинк нормально
07:07
остальное или по функционалу плохо или запредельно дорого
07:14
надеюсь мы это обнаружим быстро, до того как накупим значительное количество
07:23
а как на айпитв сказывается?
07:23
я не в курсе всех подробностей но были баги со стабильностьюкоммутаторов на 7 ветке вообще
07:23
и для мультикаста в частности.
07:34
нда
07:35
а кроме логов канала, про графики есть где почитать?
07:35
про то как с нула настроить
07:35
нуля
07:36
ггыгыгы . у тебя всё равно не получится
07:41
:)
07:41
а 8000 порт надо оставлять?
07:41
в настройке строеджа?
07:42
да
07:42
там путь который у тебя в браузере
07:43
мне кажется порт не 8000
07:43
смотри в логи noc-web
07:44
без порта трейсбек вываливается
07:44
global name 'cairo' is not defined - подозреваю, что что-то надо доустанавливать
07:45
а, ты на другом этапе :)
07:45
да, именно с 80-м портом
07:45
:)
07:47
я тебе говорил что не получится :)
08:03
мнда. не получилось .
08:03
всего в 10 потоков идёт
08:07
dvolodin: привет
08:08
а чего может быть такое, save MO сам не заканчивается
08:09
он метрики там всякие пересчитывает
08:10
я вроде вырезал все по интерфейсам
08:10
ну и не закрывается совсем, я оставлял на час --- крутилось
08:10
закрываешь вкладку
08:10
снова заходишь --- сохранено
09:00
dvolodin, почему активаторы могут случайным образом отваливаться?
09:01
работают, ваыполняют скрипты
09:01
отправляют результат
09:01
и инстансы от сае начинают отваливаться
09:01
конектятся заново
09:01
потом опять отваливаются
09:01
и так по кругу
09:02
2014-12-18 11:49:09,554 [root] Registering as 'noc'
09:02
2014-12-18 11:51:38,171 [root] Registering as 'noc'
09:02
2014-12-18 11:52:28,408 [root] Registering as 'noc'
09:02
2014-12-18 11:52:53,560 [root] Registering as 'noc'
09:02
2014-12-18 11:55:43,925 [root] Registering as 'noc'
09:02
2014-12-18 11:57:56,061 [root] Registering as 'noc'
09:07
09:07
но мне кажется это следствие а не причина отвалов
09:11
есть такая поебень
09:11
хотя у меня трейсов нету
09:11
но непонятное поведение присутствует
09:14
там в логах бывает при этом что-то типа SAE is overwhelmed by MRT scheduling
09:15
это проблема с постгресом
09:15
вариант быстрый и грязный -- truncate sa_maptask; reindex sa_maptask
09:16
вариант правильный -- подтюнить постгрес
09:18
тоесть если валится оверхелмет - тюнить постгресс?
09:20
for mt in MapTask.objects.filter(
09:20
status="W",
09:20
next_try__lte=t,
09:20
managed_object__activator__shard__is_active=True,
09:20
managed_object__activator__shard__name__in=self.shards
09:20
).order_by("next_try").select_related().select_for_update():
09:20
чтобы нормально выполнял такой вот запрос
09:22
можно, кстати, сделать индекс по полю next_try
09:22
может и поможет
09:22
давайте сделаем
09:24
отвлечённый вопрос. как по русски найти инфу как собрать на с\с++ прогу с отладочными символами но на клиента отправить только исполняемый файл, и иметь возможность у себя по core файлу отследить что там упало.
09:25
dvolodin, а у меня нет overwhelmed
09:26
2014-12-18 12:25:19,588 [noc-sae] SAE is overloaded by MRT scheduling (took 1.460105s)
09:26
?
09:26
или это не то?
09:27
root@noc:/var/noc/log # grep overl noc-sae.log
09:27
2014-12-18 11:52:46,025 [noc-sae] SAE is overloaded by MRT scheduling (took 5.617778s)
09:27
2014-12-18 11:53:11,413 [noc-sae] SAE is overloaded by MRT scheduling (took 5.727386s)
09:27
2014-12-18 11:53:31,105 [noc-sae] SAE is overloaded by MRT scheduling (took 1.298574s)
09:27
2014-12-18 11:53:32,577 [noc-sae] SAE is overloaded by MRT scheduling (took 1.299712s)
09:27
да
09:27
вот у меня оно же
09:27
[root@nocproject log]# grep overloaded noc-sae.log | wc -l
09:27
161
09:27
последние пару часов работы
09:27
мне тут уже freeseacher подсказывал
09:28
я тюнил постгрес
09:28
хотя
09:28
какой это нахрен тюнинг
09:29
e_zombie1, там какой-то сайт есть, вводишь данные, а он показывает какие параметры постгресму лучше захерачить
09:32
09:32
есть в стандартных репах
09:34
e_zombie1, да, этот сайт
09:34
maintenance_work_mem = 1GB # pgtune wizard 2014-12-18
09:34
effective_cache_size = 24GB # pgtune wizard 2014-12-18
09:34
work_mem = 208MB # pgtune wizard 2014-12-18
09:34
wal_buffers = 8MB # pgtune wizard 2014-12-18
09:34
shared_buffers = 8GB # pgtune wizard 2014-12-18
09:52
не помогает
09:52
2014-12-18 12:52:19,000 [noc-sae] SAE is overloaded by MRT scheduling (took 1.717952s)
09:52
2014-12-18 12:52:22,798 [noc-sae] SAE is overloaded by MRT scheduling (took 2.076081s)
09:52
2014-12-18 12:52:26,098 [noc-sae] SAE is overloaded by MRT scheduling (took 1.563214s)
09:52
2014-12-18 12:52:30,544 [noc-sae] SAE is overloaded by MRT scheduling (took 2.377718s)
09:52
2014-12-18 12:52:34,059 [noc-sae] SAE is overloaded by MRT scheduling (took 1.503781s)
09:52
2014-12-18 12:52:37,763 [noc-sae] SAE is overloaded by MRT scheduling (took 1.507259s)
10:03
хотя меня походу ничего не спасёт. дисковые массивы просто не осиляют более 100 tps
10:12
TSergey у меня qtech 2800 серия, уже года полтора, пара сотен, наверное. Не жалуюсь, скорее наоборот, особенно на фоне недавнего получения DES-1210-28/ME/B2
10:22
но у нас мультикаста нет в сети
10:24
100 tps -- совсем детский лепет
10:24
How much can I expect from my storage? It depends how fast the disks are spinning, and how many there is. As a rule of thumb I assume for a single disk: 7.2k RPM -> ~100 IOPS 10k RPM -> ~150 IOPS 15k RPM -> ~200 IOPS Our hadoop servers were pushing about 70 IOPS to each disk at peak and they are 7.2k ones so that is in line with this estimate.
10:26
dvolodin, так чего делать? видишь нас тут много и ничего не работает
10:32
у вас все время ничего не работает
10:33
нет
10:33
у нас все время не работает только нок
10:33
посмотрите, сколько записей в sa_maptask
10:33
работа у него такая - не работать
10:33
еще с залипающими пробами не могу отловить багу
10:35
dvolodin, noc=# select id from sa_maptask;
10:35
id
10:35
---------
10:35
1216649
10:35
...
10:35
1216645
10:35
(43 rows)
10:36
ну вот теперь вопрос - что вы делаете с постгресом, что он 40 записей за 2 секунды извлекает?
10:37
я ничего с ним не делаю
10:37
noc=# SELECT count (*) from sa_maptask;
10:37
постгрес только на нок работает
10:37
count
10:37
-------
10:37
4849
10:38
удваиваю предыдущего оратора
10:38
noc=# SELECT count (*) from sa_reducetask;
10:38
count
10:38
-------
10:38
7276
10:38
(1 строка)
10:39
как только маптаск\редусе выползает за 1000 - всё пиздет
10:41
у тебя железок много
10:41
у меня 43
10:41
и там и там
10:41
нок нашел ответ на самый главный вопрос
10:52
e_zombie1, ты настраивал метику для постгреса в ноке?
10:52
zi_rus: я настраивал
10:52
чего там надо выбирать?
10:52
а, ты наверное про другое
10:53
zi_rus: у меня оно каким то чудом запустилось . чёто страдало хуйнёй и я в ужасе вырубил до лучших времён более подробной доки. в ней кстатине хватает как график на графоне поглядеть
10:53
я добавил в PM\Setup\Metric Configs
10:54
оставид метрики, которые берутся по умолчанию
10:54
*оставил
10:54
прописал хост, порт, базу и пользователей
10:54
и метрики потсргеса полезли в PM\Setup\Metrics
10:55
zi_rus: про это спрашивал?
10:57
зайди в PM\Setup\Metric Configs, есть хэндлер "Postgres"
10:57
есть
10:57
но метрики почему-то не создались
10:58
e_zombie1: попробуй индекс по полю next_try сделать
10:58
провеб probeconfig
10:58
*проверь
11:00
dvolodin: знаешь про косяк, что при переключении между Metric Config в PM\Setup\Metric Configs, отображаются поля и из текущего метрик конфига и из предыдущего?
11:03
zi_rus: ./noc probeconfig --list
11:03
показывает постгресовские?
11:03
да,все уже появилось
11:04
еще бы кто объяснил какие метрики критичны чтобы посмотреть на сколько ему плохо
11:11
noc=# CREATE INDEX sa_maptask_next_try ON sa_maptask (next_try);
11:11
CREATE INDEX
11:13
походу пофигу
11:14
noc=# EXPLAIN ANALYZE SELECT * from sa_maptask;
11:14
QUERY PLAN
11:14
--------------------------------------------------------------------------------------------------------------
11:14
Seq Scan on sa_maptask (cost=0.00..966.67 rows=4867 width=495) (actual time=0.012..4.490 rows=4868 loops=1)
11:14
Total runtime: 7.422 ms
11:14
(2 строки)
11:14
noc=# EXPLAIN ANALYZE SELECT * from sa_reducetask;
11:14
QUERY PLAN
11:14
--------------------------------------------------------------------------------------------------------------------
11:14
Seq Scan on sa_reducetask (cost=0.00..20377.11 rows=7311 width=320) (actual time=0.013..33.997 rows=7297 loops=1)
11:14
Total runtime: 37.906 ms
11:14
(2 строки)
11:36
e_zombie1: на select * у тебя в любом случае будет seq scan
11:36
а какой туда запрос идёт?
11:36
select * from pg_stat_activity;
11:36
:)
11:37
:-D
11:37
шайтана
11:38
научись админить постгресс и уйду в сбербанк работать
11:39
а не ломали недавно kb.nocproject.org? что-то пускать перестал, причём говорит, что не неправильный пароль, а ошибка при регистрации
11:40
а без входа не всё видно, не все блоги
11:41
точнее, не блоги, а пространства, или как там оно называется
11:42
dvolodin: чёто у меня запросов туда ваще не видно
11:42
13:03
interface_discovery стал трейсить этим
13:03
<type 'exceptions.AttributeError'>
13:03
'NoneType' object has no attribute 'default_collector'
13:03
как лечить?
13:09
у сае может нету этого атребута
13:13
а какие метрики сделать, чтобы следить за самим нок-ом?
13:13
и как пофиксить этот global name 'cairo' is not defined ?
13:16
установить каир,вестимо
13:19
дык стоит
13:19
Package cairo-1.12.14-2.fc19.x86_64 already installed and latest version
13:20
Package cairo-devel-1.12.14-2.fc19.x86_64 already installed and latest version
13:29
bee26: давай полный трейс
14:12
у меня девелоп. 0.8dev10428 (прошел правда через графит)
14:15
bee26: ты в pm > setup > storages не указал коллектор
14:15
dvolodin, snmp v1 посмотри в issue
14:16
ну закоммить если все заебись
14:16
dvolodin, я эпушки в нок добавил, а он их обнюхать не может без v1
14:17
какой именно issue?
14:17
dvolodin: дефолтный на месте
14:17
bee26: скриншот покажи
14:17
dvolodin, 1495 или 1132
14:18
rfrjq nt,t ,jkmit yhfdbncz
14:18
какой тебе больше нравится
14:18
в лончере может запустить надо что-то?
14:18
Всем привет! Просьба подсказать, то такое MIB в модуле Fault Management
14:22
freeseacher, привет, просьба помоь с доступом в документацию, по-прежнему не работает
14:26
да
14:26
[noc-pmprobe]
14:26
enabled = false
14:26
user = noc
14:26
group =
14:26
config = etc/noc-pmprobe.conf
14:27
может включить?
14:27
в лончере
14:30
нет
14:30
это старая проба
14:30
удали вообще этот конфиг
14:31
и это тоже?
14:31
[noc-probe]
14:31
enabled = false
14:31
user = noc
14:31
group =.
14:32
config = etc/noc-probe.conf
14:32
а это новая проба
14:32
это надо настроить
14:32
dvolodin, нашел issue про snmp v1?
14:41
полджела сделано :)
Share this page
Share this page: