About Forum Blogs NOC Docs Downloads KB Issues Code CI Registration

nocproject.org

#nocproject.org at irc.freenode.net log.
Back to nocproject.org Back to IRC log index
Date: 05.02.2015
dvolodin #
05:02
~BNH550EP4------78P5WWW0WWWWW687EW0WW9\66RDF
05:02
-0
LonFas #
05:08
dvolodin, на клавиатуре уснул :)?
05:08
странные от тебя сообщения приходят
IRevent #
05:09
LonFas: не буди его
dvolodin #
05:23
кот сказал всем "привет"
05:23
:)
e_zombie #
06:13
,,
zi_rus #
06:38
dvolodin, слушай, вчера noc-web прихерел немного и не смог отвечать на запросы
06:38
2015-02-04 23:19:10,666 [noc.lib.daemon.configuration] Cannot get config from http://127.0.0.1:8000/pm/probe/default/0/config/: Timed out
06:38
проба подолбилась до часу ночи
06:38
и успокоилась
06:38
но графики перестала рисовать
06:38
пока я сейчас не ребутнул все опять
06:38
2015-02-05 00:32:36,338 [noc.lib.daemon.configuration] Cannot get config from http://127.0.0.1:8000/pm/probe/default/0/config/: Timed out
06:38
2015-02-05 00:43:08,397 [noc.lib.daemon.configuration] Cannot get config from http://127.0.0.1:8000/pm/probe/default/0/config/: Timed out
06:38
2015-02-05 09:20:49,235 [root] Closing channel line://127.0.0.1:2003
06:38
2015-02-05 09:21:44,138 [noc.lib.perf] Stats are disabled
06:38
2015-02-05 09:21:44,199 [noc.lib.daemon.configuration] Starting configuration thread
dvolodin #
06:40
что же ты такого сделал с ним/
06:40
?
zi_rus #
06:42
да я там в графане запросы звездочками построил
dvolodin #
06:42
молодец
zi_rus #
06:42
типа object.*.
06:42
но это тангенциально моей проблеме
06:44
noc-web справедливо прилег, а вот проба опять неадекватно среагировала
dvolodin #
06:44
ну почему же
06:44
ты не отдал ей конфиг
zi_rus #
06:44
ну ен отдал
06:44
один раз
06:44
второй, третий
dvolodin #
06:44
хотя она, насколько я помню, продолжает работать со старым
zi_rus #
06:44
чеерз полтора часа что случилось?
06:45
она перестала пытаться его получить
06:45
и вообще перестала работать
06:45
до полного рестарта
06:45
23:19 когда случился первый таймаут у меня как раз все графики и оборвались
dvolodin #
06:46
трейсы есть какие-нибудь?
zi_rus #
06:47
что-то есть
06:47
сейчас откопаю
dvolodin #
06:51
extjs 5.1 в целом заработал, M2MField я переделал вообще
zi_rus #
06:52
dvolodin, отрепортил из crashinfo
dvolodin #
06:52
pymongo.errors.DocumentTooLarge
06:52
оно?
zi_rus #
06:52
lf
06:52
да
dvolodin #
06:53
гы
06:53
это не то
06:53
ты умудрился построить график с 16 мегами данных :)
zi_rus #
06:53
других нет
06:54
[root@noc noc]# grep TRACE noc-probe.*
06:54
[root@noc noc]# grep TRACE noc-pmwriter.*
06:54
[root@noc noc]#
06:54
ну да, я по звездочке же делал
dvolodin #
06:54
хех
zi_rus #
06:54
я пытался найти есть ли на каком порту errors
dvolodin #
06:55
ну не так же живодерски это делать
06:55
точнее -- хочешь живодерски - делай
06:55
но не так
06:55
там есть питоновский интерфейс для доступа к tsdb
IRevent #
06:55
dvolodin: почему с одного коммутатора не все линки в графане появились
06:55
./noc probeconfig --list | grep "inv.Interface ID" | wc -l
06:55
226
06:55
./noc ts --list | grep object.6509.interface.*.interface.load.in | wc -l
06:55
33
dvolodin #
06:56
IRevent: смотри профили, ifIndex
IRevent #
06:56
везде есть
dvolodin #
06:57
там где нет -- посмотри Metrics
06:57
прямо в веб-морде
zi_rus #
06:59
dvolodin, я пользуюсь инструментами которыми умею, если бы ты придумал тулзу как это делать удобнее, не спускаясь в питон, было бы хорошо
dvolodin #
07:00
наверное можно над отчетиком каким-нибудь подумать
07:00
но не сейчас
IRevent #
07:01
TRACE: Checking noc.pm.probes.generic.network.snmp_interface.SNMPInterfaceProbe.get_interface_load64
07:01
Matched handler noc.pm.probes.generic.network.snmp_interface.SNMPInterfaceProbe.get_interface_load64
07:01
как бы все хорошо
07:02
но в метриках его нет
dvolodin #
07:08
конфиг подобраля ему?
IRevent #
07:14
м?
ss_ #
07:48
upgrade: : Failed to pull repo http://hg.nocproject.org/noc
07:48
Terminating
07:48
че эт? после /opt/noc# ./scripts/upgrade
Unbeerable #
07:55
:)
07:55
https://bitbucket.org/nocproject/noc
07:55
REPO=https://bitbucket.org/nocproject/noc в etc/upgrade.conf
ss_ #
08:04
а зачем так сделали?
Unbeerable #
08:08
не знаю, наверное чтобы доступность кода была лучше на случай проблем с серверами нока
08:08
или может там более удобная схема совместной работы
08:08
всякие пул-реквесты и т.д.
ss_ #
08:13
upgrade: : Failed to pull repo https://bitbucket.org/nocproject/noc
08:14
там hg нужно?
zi_rus #
08:15
нет
08:15
REPO=https://bitbucket.org/nocproject/noc
ss_ #
08:17
хм
08:17
а че не пашет?
zi_rus #
08:18
хз
08:18
у меня пашет
08:18
Pulling repo https://bitbucket.org/nocproject/noc
08:18
pulling from https://bitbucket.org/nocproject/noc
08:18
searching for changes
08:18
no changes found
08:18
0 files updated, 0 files merged, 0 files removed, 0 files unresolved
08:18
Upgrading PIP
e_zombie #
08:21
что то у меня наблюдается ситуёвина что хосты добавленные через import не пропинговываются
ss_ #
08:27
root@monitor:/opt/noc# ./scripts/upgrade
08:27
Set up configuration files
08:27
Creating required directories
08:27
Checking virtualenv
08:27
Pulling repo https://bitbucket.org/nocproject/noc
08:27
not trusting file /opt/noc/.hg/hgrc from untrusted user noc, group noc
08:27
not trusting file /opt/noc/.hg/hgrc from untrusted user noc, group noc
08:27
abort: error: Connection timed out
08:27
upgrade: : Failed to pull repo https://bitbucket.org/nocproject/noc
08:27
Terminating
08:43
etc/upgrade.conf кто нить на пастебин залейте
08:48
есть ктьо живой?
dvolodin #
08:58
возьми upgrade.defaults
e_zombie #
08:59
dvolodin: возвращаюсь к вчерашнему разговору про отчёт доступности. ты будешь это править или забьёшь?
dvolodin #
08:59
ну не прямо сейчас
09:00
без ваших реальных данных трудно определить, стоит ли там что-нибудь править
e_zombie #
09:00
я подозреваю что там надо условия прописать по умолчанию что хост неживой.
09:00
и тогда оно заработает.
09:01
просто сейчаспо умолчанию есть что он ивой.
ss_ #
09:02
ping bitbucket.org
09:02
^CPING bitbucket.org (131.103.20.167) 56(84) bytes of data.
09:02
--- bitbucket.org ping statistics ---
09:02
22 packets transmitted, 0 received, 100% packet loss, time 20999ms
09:02
хм, наш днс не знает о bitbucket.org
e_zombie #
09:02
хотя в моём случае ping OK события нету
ss_ #
09:02
или он не пингуется?
dvolodin #
09:04
def get_availability(self, days):
09:04
now = datetime.datetime.now()
09:04
d = datetime.timedelta(days=days)
09:04
b = now - d
09:04
outages = defaultdict(int)
09:04
q = Q(start__gte=b) | Q(stop__gte=b)
09:04
for o in Outage.objects.filter(q):
09:04
там вот такое
09:04
попробуй посмотри для проблемной железки, что там в outages
09:05
посмотри view.py, мог и криво посчитать
09:06
если железка лежала дольше, чем окно проверки
ss_ #
09:08
upgrade: : Failed to pull repo https://bitbucket.org/nocproject/noc
09:08
Terminating
09:08
днс 8.8.8.8
09:08
конф upgrade.defaults
dvolodin #
09:11
ну не шмогла
e_zombie #
09:11
dvolodin: я вижу что эта формула будет плохо работать если там или нет вообще объектов или есть только один
ss_ #
09:12
а репа работает?*
dvolodin #
09:20
Outage обновляются по ping ok/ping faied
09:20
попробуй выбери для своей железки значения
09:20
и посмотри
IRevent #
09:21
(12:08:45) dvolodin: конфиг подобраля ему? - что ты имел ввиду?
e_zombie #
09:26
оноже должно отображаться в эвентах ? типа пинг ОК ?
09:27
http://i58.fastpic.ru/big/2015/0205/af/266ebeee4972f9598ed61671914568af.png
ss_ #
09:27
человеки помогите обновиться
09:28
e_zombie помоголо )
e_zombie #
09:29
ну вот видишь. а ты расстраивался
ss_ #
09:30
e_zombie, жаль что только морально а обновление не идет(
09:30
hg clone https://bitbucket.org/nocproject/noc а это пашет на другой тачке
09:34
куйня каято с маршрутизацией похоже
09:38
все вопрос снят, на серваке с маршрутами играл и один похерил)
dvolodin #
09:45
e_zombie: там отдельная коллекция есть, в которой фиксируются простои
ss_ #
09:46
Login failed due to internal error
09:47
залогиниться не могу
09:51
UNHANDLED EXCEPTION (2015-02-05 12:51:13.566012)
09:51
Working directory: /opt/noc
09:51
<class 'django.db.utils.DatabaseError'>
09:51
column sa_managedobjectprofile.enable_config_polling does not exist
09:51
LINE 1: ...rval", "sa_managedobjectprofile"."down_severity", "sa_manage...
09:51
это sa/mo
09:51
карты пустые
09:51
поломали демоны
09:54
Login failed due to internal error
09:54
что делать то?
09:55
база не мигрировала?
09:58
File: /opt/noc/sa/activator/activator.py (Line: 464)
09:58
Function: tick
09:58
457 # Cancel stale scripts
09:58
458 if self.get_state() == "ESTABLISHED":
09:58
459 self.cancel_stale_scripts()
09:58
460 # Run pending ping probes
09:58
461 if self.to_ping and self.get_state() == "ESTABLISHED":
09:58
462 self.run_ping_checks()
09:58
463 # Heartbeat when necessary
09:58
464 ==> if (self.heartbeat_enable and
09:58
465 (self.next_heartbeat is None or self.next_heartbeat <= t)):
09:58
466 self.heartbeat()
09:58
467 self.next_heartbeat = t + 3 # @todo: more accurate
09:58
468 # Run default daemon/fsm machinery
09:58
469 super(Activator, self).tick()
09:59
470
09:59
Variables:
09:59
self = <noc.sa.activator.activator.Activator object at 0x7ffb27bb6650>
09:59
t = 1423130310.869088
09:59
это в логах активатора
10:01
человеки
10:01
вы где
e_zombie #
10:06
dvolodin: > db.noc.fm.outages.find({"object" : 87382});
10:06
{ "_id" : ObjectId("54a67e3e989fcf4f8a017ddd"), "object" : 87382, "start" : ISODate("2015-01-02T14:17:18.099Z"), "stop" : ISODate("2015-01-02T14:19:01.226Z") }
10:06
{ "_id" : ObjectId("54bceb7e989fcf0138c75fa4"), "object" : 87382, "start" : ISODate("2015-01-19T14:33:18.854Z") }
10:06
>
ss_ #
10:17
dvolodin, как проверить база соответвует версии?
dvolodin #
10:30
ss_: есть скрипт upgrade, лучше им
10:30
:)
10:30
e_zombie: а, то есть для лежащих сейчас железок stop - пустой
e_zombie #
10:31
и?
dvolodin #
10:31
q = Q(start__gte=b) | Q(stop__gte=b) | Q(stop__exists=False)
10:31
вот на такое поправь
10:32
и будет тебе счастье
e_zombie #
10:32
рестартовать надо?
dvolodin #
10:32
noc-web только
10:33
я вообще уже злобно поглядываю на supervisord
10:33
в том плане, что я давно его в других проектах использую
10:33
может ланчер на него заменить?
e_zombie #
10:33
кхм.
dvolodin #
10:33
и сделать парочку плагинов
e_zombie #
10:33
вариант. сокращение кодовой базы
dvolodin #
10:34
да
10:34
он умный и у него cli есть свой
10:34
и умеет читать файлы из каталогов
10:34
при появлении
10:34
тогда и перезапуск из web-морды можно будет сделать
e_zombie #
10:35
идея хорошая но может сперва дошлифуем ?
10:35
кстати я хотел спросить ты возмёшь в девелоп профиль для железки для которой есть только get_version и то фейковый ?
10:36
вот что в отчёте
10:36
fsw3-2-lomonosova-18a-35-sarQtech.QSW2800Qtech QSW-2800-28T-AC 0% 0% 43.09%
10:36
получается что ок.
10:37
можно коммитить
dvolodin #
10:37
а на более длительный срок?
10:37
когда он еще был частично доступен?
10:37
а
10:37
вижу
e_zombie #
10:41
sw-7-4prokatnaya-15-35-sarHuawei.VRPHuawei S2326TP-EI 0% 0% 0%
10:41
вот это вроде случай когда ваще нету
10:41
сейчас гляну бд
10:42
> db.noc.fm.outages.find({"object" : 84899});
10:42
{ "_id" : ObjectId("5497da1e989fcf6496eb78ad"), "object" : 84899, "start" : ISODate("2014-12-22T11:45:18.052Z") }
10:42
>
dvolodin #
10:43
лежит больше месяца
10:46
сейчас отчет бъется со сторонними наблюдениями?
e_zombie #
10:47
ээээээ ?
10:47
яя пойду пообщаюсь по поводу валидности отчёта
dvolodin #
11:01
надо на нем баночку вазелина нарисовать
11:01
:)
e_zombie #
11:02
лолд
11:02
что то по отчёту у меня море железок которые в сети не живые последний месяц
zi_rus #
11:03
dvolodin, а с deferred что-нибудь починишь?
e_zombie #
11:03
кхм 250 штук
zi_rus #
11:04
мы тут изнемогаем
e_zombie #
11:15
dvolodin: клёва. спасибо за отчёт. пойду чистить базу и троллить руководство
11:16
слушай. а аналогичной баги нет в ФМ.
11:17
типа хост числится живым а на самом деле ему кирдык давно ?
dvolodin #
11:19
e_zombie: не должно бы
11:19
zi_rus: не воспроизводится у меня этот deferred
zi_rus #
11:19
то есть это мы с evyscr лохи?
e_zombie #
11:19
неудачнеги
11:29
слушай. а скажи как искать такую фигню.
11:29
может у меня тоже такая а я не замечаю
ss_ #
11:42
dvolodin, а как проверить этим скриптом
11:46
# ./scripts/upgrade
11:46
upgrade complete
11:57
крашинфо в логах много
11:57
кто подскажет как чинить?
11:58
есть кто живой?
11:59
есть кто живой?
zi_rus #
12:03
e_zombie, открыйвай железки которые падали и поднимались
12:04
и смотри у них дискавери
ss_ #
12:04
zi_rus, ты жив
zi_rus #
12:04
они становятся все пустыми
ss_ #
12:04
скажи что починить чтоб взлетело
zi_rus #
12:04
и на каждом пишет деферед
12:04
ss_, чини краши
ss_ #
12:04
так непомнимать что чинить
12:04
на базу ругается
zi_rus #
12:05
чини базу :)
12:05
"Доктор, у меня это"
ss_ #
12:05
http://pastebin.com/cvi4Rtvy
12:05
как чинить?
12:06
до апгреда все работало
12:06
после апгреда херушки
12:06
во время апргреда никаких ошибок
12:07
http://pastebin.com/7t2wXGhh
12:07
вот еще
12:07
и так по каждому процессу
12:08
Ну епте
12:08
куды ломать то?
12:08
с нуля поднимать все не вариант
zi_rus #
12:23
ss_, перезагрузись
ss_ #
12:24
нафига перегружать?
12:24
там не один нок крутится
12:25
бд рестарну
12:25
процессы нока тоже
12:27
zi_rus, LINE 1: ...rval", "sa_managedobjectprofile"."down_severity", "sa_manage...
12:27
я вижу что поменялась структура БД
12:28
кто может дать актуальную структуру базы?
12:49
людиии
12:50
где структура БД описана?
dvolodin #
12:53
ss_: в каталогах models
ss_ #
12:54
dvolodin, есть процедура провеки корректности БД?
13:06
dvolodin, немогу найти
13:06
точный путь есть?
mcsim #
13:27
Подскажите, на компе несколько сетевых интерфейсов для доступа в разные сети. Надо несколько активаторов для приема snmp и sysog поднимать ?
zi_rus #
13:27
нет
13:27
0,0,0,0
13:27
ss_, что ж ты сделал такого
13:28
у меня нормально все работает и апгрейдится и продолжает работать
ss_ #
13:30
неапгредил два месяца
13:34
не до этого было
13:37
ProgrammingError('column sa_managedobjectprofile.enable_config_polling does not exist\nLINE 1: ...rval", "sa_managedobjectprofile"."down_severity", "sa_manage...\n ^\n',)
e_zombie #
13:48
zi_rus:
zi_rus #
13:48
шта
e_zombie #
13:48
http://i65.fastpic.ru/big/2015/0205/92/509683653d6baf7a596348e4b0c43b92.png
13:48
http://i65.fastpic.ru/big/2015/0205/6a/03ecb581e4a0b27171990c34a1ed506a.png
13:48
http://i65.fastpic.ru/big/2015/0205/e0/e343782a91a7a133e2cdfd8026ce86e0.png
13:48
все железки падали сегодня
13:48
ааа бля
13:48
если она не поднялась - у неё значит дисаблед статус?
13:49
хотя нихуя. они поднялись
13:49
они счас в апе
zi_rus #
13:49
e_zombie, http://i65.fastpic.ru/big/2015/0205/30/a8095a9a1358070a62cf857881d05130.png
xetle #
13:50
ss_ при апгрейде миграция какаято не отработала.. Смотри где там column sa_managedobjectprofile.enable_config_polling добавляли.
13:50
Миграцию Sa смотри.
e_zombie #
13:50
что то у меня похожее было. гдето видел у себя.
mcsim #
14:05
zi_rus - там вроде как интерфейсы указаны (eth0). можно указать ip ?
zi_rus #
14:05
где там?
e_zombie #
14:07
https://pp.vk.me/c622920/v622920496/1c453/SdKmqPcWCDw.jpg
mcsim #
14:17
zi_rus: noc-activator.conf/[activator]/listen_traps=eth0
zi_rus #
14:18
listen_traps = 0.0.0.0
mcsim #
14:18
zi_rus: thnx
14:18
а у кого-нить есть скрипты для для huawei quidway 9300, 5300 ?
e_zombie #
14:28
не родился ещё такой
alamar #
17:29
can somebody give me a hint to where I can find the latest virtual image downloads?
Night_Snake_ #
19:17
а как починить базу, если custom_field добавился как0то зело криво
19:19
и этот самый custom_field щас не редактируется и не удаляется
19:22
http://pastebin.com/a7CvftjM
20:20
dvolodin глянь пожалуйста http://pastebin.com/a7CvftjM
20:20
я добавил кастом филд, но походу нифига он не добавился
20:20
и попутно базу поломла
dvolodin #
20:24
sae при этом лучше останавливать
zi_home #
21:03
dvolodin, а можно все-таки как-то ограничить юзеру запуск ран коммандс только на разрешенных железках?
21:05
очень надо
dvolodin #
21:15
:)
21:15
может все-таки давать выполнять только заданные сниппеты?
zi_home #
21:18
dvolodin, нет, не канает, наши шпдшники на свои железки ходят, им то одну настройку раскатать то другую, под сниппеты это не подогнать
dvolodin #
21:20
потом гляну, у меня увлекательное ковыряние в потрошках ExtJS
zi_home #
21:21
побыстрее бы
Night_Snake_ #
21:22
dvolodin а щас-то что делать? типа откатываться?
dvolodin #
21:22
удалить запись в main_customfield
21:23
запустить только noc-web и создать его заново
21:23
SAE насмерть держит таблицу sa_managedobject
21:26
zi_rus: ну не все сразу
21:26
я сегодня весь день убил на 2 PHP'шных модуля для pfSense
21:27
в результате сделал нормальный XML API для управления captive portal'ом
21:39
у нас же этот приказ по идентификации, который и на публичные wifi распространяется
21:58
я сделал feature branch extjs-5.1.0
21:58
предлагаю потестить, чтобы не было как в прошлый раз :)
21:59
там новый M2M Field, в селекторах можно выбирать более 25 других селекторов
21:59
:)
Tweet
Share this page
Share this page: Tweet