About Forum Blogs NOC Docs Downloads KB Issues Code CI Registration

nocproject.org

#nocproject.org at irc.freenode.net log.
Back to nocproject.org Back to IRC log index
Date: 18.01.2011
free|wk #
05:57
Доброе утро! господа, есть вопрос. как вручную дернуть конфиг из железки. из scripts отрабатывает, а из задачи нет в логе лишь Map Task error: Cancelled
05:57
я так понимаю по достижению таймаута
dvolodin #
06:02
в логах активатора и SAE что-нибудь есть?
free|wk #
06:03
и тот и другой согласно кивают на то что задача отменена
06:04
видимо по таймауту
06:05
2011-01-18 10:48:32,873 ERROR script(Alcatel.TIMOS.get_config,bsr01,**{}) failed: Cancelled
06:05
2011-01-18 10:48:32,926 ERROR Map Task error: Cancelled
dvolodin #
06:11
по таймауту отлетело
free|wk #
06:11
как првоерить чего пошло не так ? с скриптов пашет
dvolodin #
06:11
можно запустить отдельный активатор с loglevel = debug, пересадить на него эту железку и посмотреть, на чем оно залипает
free|wk #
06:12
я сессии логирую
dvolodin #
06:14
туда что-нибудь попадает?
06:14
можно еще скрипту поставить TIMEOUT побольше
free|wk #
06:14
в логе сесси меня смущает сильно тот факт что оно команды выдает не в той поседоваетльносьти
06:14
сначала просмотр конфига потом отключение пейджера
06:14
в каком порядке они передаются то ?
06:15
я и так уже 900 выставил и ретраев 3
dvolodin #
06:15
в правильном должны выдаваться
free|wk #
06:15
да в логе сесси есть только команды отправки
06:15
но не принимается
dvolodin #
06:15
лучше посмотреть debug логи активатора
free|wk #
06:16
ага
06:16
согздал активатор через веб
06:17
а как его в конфиг запихать где почитать ?
dvolodin #
06:20
отдельный конфиг ему можно сделать и запустить так
06:20
./scripts/noc-activator.py -f -c etc/noc-activator-debug.conf
06:28
алкателовский BRAS?
06:28
как они, кстати?
free|wk #
06:28
fuf
06:28
ага
dvolodin #
06:28
7750?
free|wk #
06:28
не без проблемм.
06:28
да
dvolodin #
06:29
забавная штука, смотрел несколько лет назад, но остановились в итоге на juniper'е
free|wk #
06:30
e120/320 ?
06:31
там порты выставлены их поменять надо ?
06:31
host = 127.0.0.1
06:31
ssl_port = 19703
06:31
port = 19701
06:31
ssl пока не in use
dvolodin #
06:32
были E120 и ERX310
06:32
name ему надо поменять
06:33
port и loglevel
free|wk #
06:36
хм
06:36
такаое ощущение что он его листит
06:37
тоест ьполсдеовательность команд не верная
06:37
но иногда он его собирает
06:38
http://freebsd.pastebin.com/CAbbQYDg
dvolodin #
06:42
собирает потихоньку, потом cancel ловит?
free|wk #
06:43
ага
06:43
потом счастиливо говорит что прибил зомбака
dvolodin #
06:43
а иногда отдает быстро и успевает пролететь?
free|wk #
06:44
да
06:44
с консоли он всегда быстро отдает
dvolodin #
06:45
версия noc какая?
free|wk #
06:47
3140
06:47
3140:903e2442abf4
dvolodin #
06:52
пейджер у него отключается?
free|wk #
06:53
да
06:53
но говорю же
06:54
он в логе сессии выводит их в неверном порядке
dvolodin #
06:54
как профиль выглядит?
06:54
и скрипт
free|wk #
06:56
http://freebsd.pastebin.com/nL79RmZJ
06:57
http://freebsd.pastebin.com/zjrLephK
dvolodin #
07:00
config_volatile="#\sFinished.*" в скрипте не нужен
07:00
в логах активатора команды в каком порядке уходят?
free|wk #
07:01
я уже вынес
07:01
это были первые попытки
07:02
верно уходят
07:02
в правильной последовательности
dvolodin #
07:03
то есть пейджер ему не мешает?
free|wk #
07:04
да пейджер не мешает
07:04
но с каокго то момента в логе кроме on_read появлется еще и Asynchronous check
07:05
надо сказать есть один момент который может все портить
07:05
конфиг TIMOS-а легко может быть по 28 мегов
dvolodin #
07:06
asyncronous check - это все правильно, как раз для больших конфигов
07:08
сколько ему нужно времени, чтобы слить конфиг по ssh?
free|wk #
07:10
через веб минуту он быстро делает это
07:10
щас засеку
07:12
58 секунд
dvolodin #
07:12
а по ssh?
free|wk #
07:15
17
dvolodin #
07:17
активатор проц и память сильно жрет, когда конфиг выскребает?
free|wk #
07:18
не очень.
07:18
но если делаешь дерганье через config manager то он вместо отменечнного дергает все почему то
07:18
и тогда в полку.
dvolodin #
07:18
по времени что получается?
07:19
15 минут пытается выцарапать конфиг и получает по шапке?
07:19
или раньше обламывается?
free|wk #
07:19
он раньше отстреливется
07:19
по времени 900 секунд и примерно половина в канселед
dvolodin #
07:20
python manage.py debug-script Alcatel.TIMOS.get_config <имя железки в базе>
07:20
такое проходит?
free|wk #
07:20
кстати virtualbox
dvolodin #
07:21
вряд ли это сильно влияет
07:22
хотя, кто знает, может оно активатор ущемляет настолько, что он ничего не успевает
07:22
а если эту железку вынести на отдельный персональный активатор, ему легче становится?
free|wk #
07:22
щас с локалхоса моего перенесем на esx там поболее ресурсов дать можно
07:24
дебаг отработал
07:24
без траблов
07:24
быстро
dvolodin #
07:24
ага
07:24
сколько по времени?
free|wk #
07:26
меньше минуты
dvolodin #
07:28
ага
07:28
сколько конфигов в параллель вытягивается?
free|wk #
07:34
38
07:34
2011-01-18 12:34:20,266 INFO 37 script threads left (200 max)
dvolodin #
07:35
может быть многовато для localhost'а
07:35
для начала можно попробовать 20
07:47
и подождать какое-то время - он должен равномерно растрясти сбор конфигов
08:41
http://redmine.nocproject.org/boards/1/topics/1849
Dmitry1 #
08:48
Перенеси в developers corner
free|wk #
09:08
перенесли на другую тачилу. теперь мамяти и проца ей вдоволь. теперь если я правильно понимаю надо разносить по активаторам ?
09:09
ибо сбор с конфиг манагера так и не идет
Dmitry1 #
09:21
А он никогда там и не шел. Я об этом уже несколько раз говорил.
09:22
Единственный вариант немедленно вытянуть конфиг - это через Service Activation -> Task Schedules -> Run Now
09:23
Если ты хоть один раз воспользовался Configuration Management - Configs -> Get Now, то с этого устройства у тебя перестанут сливаться конфиги.
dvolodin #
09:24
если выбирать "Get Now", то автоматом пройдет "Run Now" для cm.pull_config
Dmitry1 #
09:25
Попробуй сам. Я танцевал с бубном много раз. Выставлял интервал pull в 5 секунд. Ни разу конфиг через Get Now не слился.
09:27
Создай новое устройство и попробуй вручную слить с него конфиг.
free|wk #
09:27
ага ща попробую
dvolodin #
09:27
после запуска лучше поставить небольшой лимит на количество сессий
09:27
и он потихоньку все высосет
free|wk #
09:28
выставил в конфиге 10 сессий
09:28
запустил через сервис активатор
dvolodin #
09:30
пошло тянуть?
free|wk #
09:30
вытянуло 4 которые раньше не могло. один так и не побеждается
Dmitry1 #
09:31
Этот "один" пробовал вытянуть через Configuration Management - Configs -> Get Now ?
free|wk #
09:31
да я многие пробовал
Dmitry1 #
09:32
Именно этот, который не стянулся
09:32
У меня решалось полным перезапуском NOC
dvolodin #
09:32
там такой принцип
09:33
пускается задача cm.pull_config
09:33
она берет конфиги, для которых next_pull < now
09:33
и пытается вытянуть
09:33
в зависимости от результата меняет next_pull
09:33
и так до следующего запуска
09:34
next_pull меняется с рандомной вариацией
Dmitry1 #
09:34
Хм. Попробуй сам поменять время Pull. В поле "Next Pull" выставится время в формате отличном от того, которое стоит в остальных конфигах. Это ни на что не влияет?
dvolodin #
09:34
поэтому через некоторое время после запуска сбор конфигов более-менее равномерно размазывается по времени
Dmitry1 #
09:36
Т.е., если нормальное время стоит "2011-01-19 09:39:09.605638", то после изменения будет "2011-01-19 09:39:09"
09:36
И конфиг перестает сливаться.
dvolodin #
09:36
а
09:36
если из формы менять?
Dmitry1 #
09:37
"Enter a valid time"
09:38
Я об этой проблеме еще месяц назад вопрос поднимал.
dvolodin #
09:38
не воспроизводится
09:38
давай по шагам, что делаешь и на чем запарывается?
Dmitry1 #
09:39
Home -> Configuration Management -> Configs -> Нажми возле конфига "Change"
dvolodin #
09:39
сделал
Dmitry1 #
09:40
Save сделай
dvolodin #
09:40
сделал
09:40
микросекунды пропали
Dmitry1 #
09:40
Во.
dvolodin #
09:40
и?
Dmitry1 #
09:40
И после этого конфиг с этого устройства перестает сливаться.
09:41
Видать функция работы с временем неверно конвертирует полученный формат.
09:42
Ради интереса выставь время сливания конфига через 5-10 секунд и понаблюдай
dvolodin #
09:42
2011-01-18 12:42:27,149 INFO cm.config_pull: sw-3-ti.msk.inn.ru, status=OK, reason=OK
09:42
пошло и вытянуло с первого раза
09:43
может с локалью у тебя проблема?
09:43
еще может влиять, как собран psycopg2
09:43
с нативным DateTime или с mxDateTime
free|wk #
09:45
у мя дебиан судя по всему есть тоже такая же трабла
dvolodin #
09:45
а если Get Now делать, время правильно выставляется?
Dmitry1 #
09:49
Хм. У меня сейчас заработало. Но я неделю назад обновил все порты. django до 1.2.4. и Jinja до 2.5.5
09:50
А. И pygments до 1.4, и sphinx до 1.0.5
09:51
Возможно проблема была в contrib
free|wk #
10:07
а что такое Mysterious death
_4ePTeHok #
10:08
:)
free|wk #
10:11
как это диагностировать ? :)
dvolodin #
11:28
Странно это
11:28
у меня с contrib все нормально отрабатывало
free|wk #
11:29
dvolodin, а что такое Mysterious death
11:29
и как это диагностировать ? :)
dvolodin #
11:31
может быть с последними коммитами и пропало
11:32
race condition хитрый
11:32
собираемся прибить запущенный thread
11:32
и обнаруживаем, что он в это время подох сам
11:33
некритично, это реакция на cancel
11:35
в Django 1.2.4 мелкие фиксы - не должны влиять на обработку даты
Dmitry1 #
11:39
А остальные модули? Я честно-говоря changelog к ним не смотрел.
free|wk #
11:48
еще момент script concurrent session limit reached это точно error может warning ?
11:49
я пытаюсь понять задание не выполнено вообще или там очередь
dvolodin #
11:57
это очередь
11:57
пришел запрос к активатору, а у него достугнут лимит сессий
11:58
для скриптов, отбитых таким образом, таймаут будет небольшой
free|wk #
11:58
так может это надо поднять в уровнях. если это не критично до info ?
dvolodin #
11:59
зачем?
free|wk #
11:59
ну просто это не похоже на error :)
dvolodin #
12:00
формально - это error
12:00
попросили активатор выполнить скрипт, а он отказал, сославшись на головную боль :)
Tweet
Share this page
Share this page: Tweet