nocproject.org
05:02
~BNH550EP4------78P5WWW0WWWWW687EW0WW9\66RDF
05:02
-0
 
05:08
dvolodin, на клавиатуре уснул :)?
05:08
странные от тебя сообщения приходят
 
05:09
LonFas: не буди его
 
05:23
кот сказал всем "привет"
05:23
:)
 
06:38
dvolodin, слушай, вчера noc-web прихерел немного и не смог отвечать на запросы
06:38
06:38
проба подолбилась до часу ночи
06:38
и успокоилась
06:38
но графики перестала рисовать
06:38
пока я сейчас не ребутнул все опять
06:38
06:38
06:38
2015-02-05 09:20:49,235 [root] Closing channel line://127.0.0.1:2003
06:38
2015-02-05 09:21:44,138 [noc.lib.perf] Stats are disabled
06:38
2015-02-05 09:21:44,199 [noc.lib.daemon.configuration] Starting configuration thread
 
06:40
что же ты такого сделал с ним/
06:40
?
 
06:42
да я там в графане запросы звездочками построил
 
06:42
типа object.*.
06:42
но это тангенциально моей проблеме
06:44
noc-web справедливо прилег, а вот проба опять неадекватно среагировала
 
06:44
ну почему же
06:44
ты не отдал ей конфиг
 
06:44
ну ен отдал
06:44
один раз
06:44
второй, третий
 
06:44
хотя она, насколько я помню, продолжает работать со старым
 
06:44
чеерз полтора часа что случилось?
06:45
она перестала пытаться его получить
06:45
и вообще перестала работать
06:45
до полного рестарта
06:45
23:19 когда случился первый таймаут у меня как раз все графики и оборвались
 
06:46
трейсы есть какие-нибудь?
 
06:47
что-то есть
06:47
сейчас откопаю
 
06:51
extjs 5.1 в целом заработал, M2MField я переделал вообще
 
06:52
dvolodin, отрепортил из crashinfo
 
06:52
pymongo.errors.DocumentTooLarge
06:52
оно?
 
06:53
гы
06:53
это не то
06:53
ты умудрился построить график с 16 мегами данных :)
 
06:53
других нет
06:54
[root@noc noc]# grep TRACE noc-probe.*
06:54
[root@noc noc]# grep TRACE noc-pmwriter.*
06:54
[root@noc noc]#
06:54
ну да, я по звездочке же делал
 
06:54
я пытался найти есть ли на каком порту errors
 
06:55
ну не так же живодерски это делать
06:55
точнее -- хочешь живодерски - делай
06:55
но не так
06:55
там есть питоновский интерфейс для доступа к tsdb
 
06:55
dvolodin: почему с одного коммутатора не все линки в графане появились
06:55
./noc probeconfig --list | grep  "inv.Interface ID" | wc -l
06:55
226
06:55
./noc ts --list | grep object.6509.interface.*.interface.load.in | wc -l
06:55
33
 
06:56
IRevent: смотри профили, ifIndex
 
06:57
там где нет -- посмотри Metrics
06:57
прямо в веб-морде
 
06:59
dvolodin, я пользуюсь инструментами которыми умею, если бы ты придумал тулзу как это делать удобнее, не спускаясь в питон, было бы хорошо
 
07:00
наверное можно над отчетиком каким-нибудь подумать
07:00
но не сейчас
 
07:01
TRACE: Checking noc.pm.probes.generic.network.snmp_interface.SNMPInterfaceProbe.get_interface_load64
07:01
Matched handler noc.pm.probes.generic.network.snmp_interface.SNMPInterfaceProbe.get_interface_load64
07:01
как бы все хорошо
07:02
но в метриках его нет
 
07:08
конфиг подобраля ему?
 
07:48
07:48
Terminating
07:48
че эт? после /opt/noc# ./scripts/upgrade
 
08:04
а зачем так сделали?
 
08:08
не знаю, наверное чтобы доступность кода была лучше на случай проблем с серверами нока
08:08
или может там более удобная схема совместной работы
08:08
всякие пул-реквесты и т.д.
 
08:13
08:14
там hg нужно?
 
08:17
хм
08:17
а че не пашет?
 
08:18
хз
08:18
у меня пашет
08:18
08:18
08:18
searching for changes
08:18
no changes found
08:18
0 files updated, 0 files merged, 0 files removed, 0 files unresolved
08:18
Upgrading PIP
 
08:21
что то у меня наблюдается ситуёвина что хосты добавленные через import не пропинговываются
 
08:27
root@monitor:/opt/noc# ./scripts/upgrade
08:27
Set up configuration files
08:27
Creating required directories
08:27
Checking virtualenv
08:27
08:27
not trusting file /opt/noc/.hg/hgrc from untrusted user noc, group noc
08:27
not trusting file /opt/noc/.hg/hgrc from untrusted user noc, group noc
08:27
abort: error: Connection timed out
08:27
08:27
Terminating
08:43
 etc/upgrade.conf  кто нить на пастебин залейте
08:48
есть ктьо живой?
 
08:58
возьми upgrade.defaults
 
08:59
dvolodin: возвращаюсь к вчерашнему разговору про отчёт доступности. ты будешь это править или забьёшь?
 
08:59
ну не прямо сейчас
09:00
без ваших реальных данных трудно определить, стоит ли там что-нибудь править
 
09:00
я подозреваю что там надо условия прописать по умолчанию что хост неживой.
09:00
и тогда оно заработает.
09:01
просто сейчаспо умолчанию есть что он ивой.
 
09:02
ping bitbucket.org
09:02
^CPING bitbucket.org (131.103.20.167) 56(84) bytes of data.
09:02
--- bitbucket.org ping statistics ---
09:02
22 packets transmitted, 0 received, 100% packet loss, time 20999ms
09:02
хм, наш днс не знает о bitbucket.org
 
09:02
хотя в моём случае ping OK события нету
 
09:02
или он не пингуется?
 
09:04
    def get_availability(self, days):
09:04
        now = datetime.datetime.now()
09:04
        d = datetime.timedelta(days=days)
09:04
        b = now - d
09:04
        outages = defaultdict(int)
09:04
        q = Q(start__gte=b) | Q(stop__gte=b)
09:04
        for o in Outage.objects.filter(q):
09:04
там вот такое
09:04
попробуй посмотри для проблемной железки, что там в outages
09:05
посмотри view.py, мог и криво посчитать
09:06
если железка лежала дольше, чем окно проверки
 
09:08
09:08
Terminating
09:08
днс 8.8.8.8
09:08
конф upgrade.defaults
 
09:11
dvolodin: я вижу что эта формула будет плохо работать если там или нет вообще объектов или есть только один
 
09:20
Outage обновляются по ping ok/ping faied
09:20
попробуй выбери для своей железки значения
09:20
и посмотри
 
09:21
(12:08:45) dvolodin: конфиг подобраля ему? - что ты имел ввиду?
 
09:26
оноже должно отображаться в эвентах ? типа пинг ОК ?
09:27
 
09:27
человеки помогите обновиться
09:28
 e_zombie  помоголо )
 
09:29
ну вот видишь. а ты расстраивался
 
09:30
e_zombie, жаль что только морально а обновление не идет(
09:30
09:34
куйня каято с маршрутизацией похоже
09:38
все вопрос снят, на серваке с маршрутами играл и один похерил)
 
09:45
e_zombie: там отдельная коллекция есть, в которой фиксируются простои
 
09:46
Login failed due to internal error
09:47
залогиниться не могу
09:51
UNHANDLED EXCEPTION (2015-02-05 12:51:13.566012)
09:51
Working directory: /opt/noc
09:51
<class 'django.db.utils.DatabaseError'>
09:51
column sa_managedobjectprofile.enable_config_polling does not exist
09:51
LINE 1: ...rval", "sa_managedobjectprofile"."down_severity", "sa_manage...
09:51
это sa/mo
09:51
карты пустые
09:51
поломали демоны
09:54
Login failed due to internal error
09:54
что делать то?
09:55
база не мигрировала?
09:58
File: /opt/noc/sa/activator/activator.py (Line: 464)
09:58
Function: tick
09:58
  457             # Cancel stale scripts
09:58
  458             if self.get_state() == "ESTABLISHED":
09:58
  459                 self.cancel_stale_scripts()
09:58
  460             # Run pending ping probes
09:58
  461             if self.to_ping and self.get_state() == "ESTABLISHED":
09:58
  462                 self.run_ping_checks()
09:58
  463             # Heartbeat when necessary
09:58
  464 ==>         if (self.heartbeat_enable and
09:58
  465                 (self.next_heartbeat is None or self.next_heartbeat <= t)):
09:58
  466                 self.heartbeat()
09:58
  467                 self.next_heartbeat = t + 3  # @todo: more accurate
09:58
  468             # Run default daemon/fsm machinery
09:58
  469             super(Activator, self).tick()
09:59
  470
09:59
Variables:
09:59
                self = <noc.sa.activator.activator.Activator object at 0x7ffb27bb6650>
09:59
                   t = 1423130310.869088
09:59
это в логах активатора
10:01
человеки
10:01
вы где
 
10:06
dvolodin: > db.noc.fm.outages.find({"object" : 87382});
10:06
{ "_id" : ObjectId("54a67e3e989fcf4f8a017ddd"), "object" : 87382, "start" : ISODate("2015-01-02T14:17:18.099Z"), "stop" : ISODate("2015-01-02T14:19:01.226Z") }
10:06
{ "_id" : ObjectId("54bceb7e989fcf0138c75fa4"), "object" : 87382, "start" : ISODate("2015-01-19T14:33:18.854Z") }
10:06
>
 
10:17
dvolodin, как проверить база соответвует версии?
 
10:30
ss_: есть скрипт upgrade, лучше им
10:30
:)
10:30
e_zombie: а, то есть для лежащих сейчас железок stop - пустой
 
10:31
q = Q(start__gte=b) | Q(stop__gte=b) | Q(stop__exists=False)
10:31
вот на такое поправь
10:32
и будет тебе счастье
 
10:32
noc-web только
10:33
я вообще уже злобно поглядываю на supervisord
10:33
в том плане, что я давно его в других проектах использую
10:33
может ланчер на него заменить?
 
10:33
и сделать парочку плагинов
 
10:33
вариант. сокращение кодовой базы
 
10:34
да
10:34
он умный и у него cli есть свой
10:34
и умеет читать файлы из каталогов
10:34
при появлении
10:34
тогда и перезапуск из web-морды можно будет сделать
 
10:35
идея хорошая но может сперва дошлифуем ?
10:35
кстати я хотел спросить ты возмёшь в девелоп профиль для железки для которой есть только get_version и то фейковый ?
10:36
вот что в отчёте
10:36
fsw3-2-lomonosova-18a-35-sarQtech.QSW2800Qtech QSW-2800-28T-AC  0% 0%  43.09%
10:36
получается что ок.
10:37
можно коммитить
 
10:37
а на более длительный срок?
10:37
когда он еще был частично доступен?
10:37
а
10:37
вижу
 
10:41
sw-7-4prokatnaya-15-35-sarHuawei.VRPHuawei S2326TP-EI   0%  0%  0%
10:41
вот это вроде случай когда ваще нету
10:41
сейчас гляну бд
10:42
> db.noc.fm.outages.find({"object" : 84899});
10:42
{ "_id" : ObjectId("5497da1e989fcf6496eb78ad"), "object" : 84899, "start" : ISODate("2014-12-22T11:45:18.052Z") }
10:42
>
 
10:43
лежит больше месяца
10:46
сейчас отчет бъется со сторонними наблюдениями?
 
10:47
ээээээ ?
10:47
яя пойду пообщаюсь по поводу валидности отчёта
 
11:01
надо на нем баночку вазелина нарисовать
11:01
:)
 
11:02
лолд
11:02
что то по отчёту у меня море железок которые в сети не живые последний месяц
 
11:03
dvolodin, а с deferred что-нибудь починишь?
 
11:15
dvolodin: клёва. спасибо за отчёт. пойду чистить базу и троллить руководство
11:16
слушай. а аналогичной баги нет в ФМ.
11:17
типа хост числится живым а на самом деле ему кирдык давно ?
 
11:19
e_zombie: не должно бы
11:19
zi_rus: не воспроизводится у меня этот deferred
 
11:19
то есть это мы с evyscr лохи?
 
11:19
неудачнеги
11:29
слушай. а скажи как искать такую фигню.
11:29
может у меня тоже такая а я не замечаю
 
11:42
dvolodin,  а как проверить этим скриптом
11:46
# ./scripts/upgrade
11:46
upgrade complete
11:57
крашинфо в логах много
11:57
кто подскажет как чинить?
11:58
есть кто живой?
11:59
есть кто живой?
 
12:03
e_zombie, открыйвай железки которые падали и поднимались
12:04
и смотри у них дискавери
 
12:04
они становятся все пустыми
 
12:04
скажи что починить чтоб взлетело
 
12:04
и на каждом пишет деферед
12:04
ss_, чини краши
 
12:04
так непомнимать что чинить
12:04
на базу ругается
 
12:05
чини базу :)
12:05
"Доктор, у меня это"
 
12:05
12:05
как чинить?
12:06
до апгреда все работало
12:06
после апгреда херушки
12:06
во время апргреда никаких ошибок
12:07
12:07
вот еще
12:07
и так по каждому процессу
12:08
Ну епте
12:08
куды ломать то?
12:08
с нуля поднимать все не вариант
 
12:24
нафига перегружать?
12:24
там не один нок крутится
12:25
бд рестарну
12:25
процессы нока тоже
12:27
zi_rus, LINE 1: ...rval", "sa_managedobjectprofile"."down_severity", "sa_manage...
12:27
я вижу что поменялась структура БД
12:28
кто может дать актуальную структуру базы?
12:49
людиии
12:50
где структура БД описана?
 
12:53
ss_: в каталогах models
 
12:54
dvolodin, есть процедура провеки корректности БД?
13:06
dvolodin, немогу найти
13:06
точный путь есть?
 
13:27
Подскажите, на компе несколько сетевых интерфейсов для доступа в разные сети. Надо несколько активаторов для приема snmp и sysog поднимать ?
 
13:27
нет
13:27
0,0,0,0
13:27
ss_, что ж ты сделал такого
13:28
у меня нормально все работает и апгрейдится и продолжает работать
 
13:30
неапгредил два месяца
13:34
не до этого было
13:37
ProgrammingError('column sa_managedobjectprofile.enable_config_polling does not exist\nLINE 1: ...rval", "sa_managedobjectprofile"."down_severity", "sa_manage...\n                                                             ^\n',)
 
13:48
13:48
13:48
13:48
все железки падали сегодня
13:48
ааа бля
13:48
если она не поднялась - у неё значит дисаблед статус?
13:49
хотя нихуя. они поднялись
13:49
они счас в апе
 
13:50
ss_ при апгрейде миграция какаято не отработала.. Смотри где там column sa_managedobjectprofile.enable_config_polling добавляли.
13:50
Миграцию Sa смотри.
 
13:50
что то у меня похожее было. гдето видел у себя.
 
14:05
zi_rus - там вроде как интерфейсы указаны (eth0). можно указать ip ?
 
14:17
zi_rus: noc-activator.conf/[activator]/listen_traps=eth0
 
14:18
listen_traps = 0.0.0.0
 
14:18
zi_rus: thnx
14:18
а у кого-нить есть скрипты для для  huawei quidway 9300, 5300 ?
 
14:28
не родился ещё такой
 
17:29
can somebody give me a hint to where I can find the latest virtual image downloads?
 
19:17
а как починить базу, если custom_field добавился как0то зело криво
19:19
и этот самый custom_field щас не редактируется и не удаляется
19:22
20:20
20:20
я добавил кастом филд, но походу нифига он не добавился
20:20
и попутно базу поломла
 
20:24
 sae при этом лучше останавливать
 
21:03
dvolodin, а можно все-таки как-то ограничить юзеру запуск ран коммандс только на разрешенных железках?
21:05
очень надо
 
21:15
:)
21:15
может все-таки давать выполнять только заданные сниппеты?
 
21:18
dvolodin, нет, не канает, наши шпдшники на свои железки ходят, им то одну настройку раскатать то другую, под сниппеты это не подогнать
 
21:20
потом гляну, у меня увлекательное ковыряние в потрошках ExtJS
 
21:22
dvolodin а щас-то что делать? типа откатываться?
 
21:22
удалить запись в main_customfield
21:23
запустить только noc-web и создать его заново
21:23
SAE насмерть держит таблицу sa_managedobject
21:26
zi_rus: ну не все сразу
21:26
я сегодня весь день убил на 2 PHP'шных модуля для pfSense
21:27
в результате сделал нормальный XML API для управления captive portal'ом
21:39
у нас же этот приказ по идентификации, который и на публичные wifi распространяется
21:58
я сделал feature branch extjs-5.1.0
21:58
предлагаю потестить, чтобы не было как в прошлый раз :)
21:59
там новый M2M Field, в селекторах можно выбирать более 25 других селекторов
21:59
:)
 
    Share this page
    Share this page: