#nocproject.org IRC logs for 05.02.2015

#nocproject.org at irc.freenode.net log.

Back to nocproject.org Back to IRC log index
Date: 05.02.2015

dvolodin #

05:02

~BNH550EP4------78P5WWW0WWWWW687EW0WW9\66RDF

05:02

-0

LonFas #

05:08

dvolodin, на клавиатуре уснул :)?

05:08

странные от тебя сообщения приходят

IRevent #

05:09

LonFas: не буди его

dvolodin #

05:23

кот сказал всем "привет"

05:23

:)

e_zombie #

06:13

,,

zi_rus #

06:38

dvolodin, слушай, вчера noc-web прихерел немного и не смог отвечать на запросы

06:38

2015-02-04 23:19:10,666 [noc.lib.daemon.configuration] Cannot get config from http://127.0.0.1:8000/pm/probe/default/0/config/: Timed out

06:38

проба подолбилась до часу ночи

06:38

и успокоилась

06:38

но графики перестала рисовать

06:38

пока я сейчас не ребутнул все опять

06:38

2015-02-05 00:32:36,338 [noc.lib.daemon.configuration] Cannot get config from http://127.0.0.1:8000/pm/probe/default/0/config/: Timed out

06:38

2015-02-05 00:43:08,397 [noc.lib.daemon.configuration] Cannot get config from http://127.0.0.1:8000/pm/probe/default/0/config/: Timed out

06:38

2015-02-05 09:20:49,235 [root] Closing channel line://127.0.0.1:2003

06:38

2015-02-05 09:21:44,138 [noc.lib.perf] Stats are disabled

06:38

2015-02-05 09:21:44,199 [noc.lib.daemon.configuration] Starting configuration thread

dvolodin #

06:40

что же ты такого сделал с ним/

06:40

?

zi_rus #

06:42

да я там в графане запросы звездочками построил

dvolodin #

06:42

молодец

zi_rus #

06:42

типа object.*.

06:42

но это тангенциально моей проблеме

06:44

noc-web справедливо прилег, а вот проба опять неадекватно среагировала

dvolodin #

06:44

ну почему же

06:44

ты не отдал ей конфиг

zi_rus #

06:44

ну ен отдал

06:44

один раз

06:44

второй, третий

dvolodin #

06:44

хотя она, насколько я помню, продолжает работать со старым

zi_rus #

06:44

чеерз полтора часа что случилось?

06:45

она перестала пытаться его получить

06:45

и вообще перестала работать

06:45

до полного рестарта

06:45

23:19 когда случился первый таймаут у меня как раз все графики и оборвались

dvolodin #

06:46

трейсы есть какие-нибудь?

zi_rus #

06:47

что-то есть

06:47

сейчас откопаю

dvolodin #

06:51

extjs 5.1 в целом заработал, M2MField я переделал вообще

zi_rus #

06:52

dvolodin, отрепортил из crashinfo

dvolodin #

06:52

pymongo.errors.DocumentTooLarge

06:52

оно?

zi_rus #

06:52

lf

06:52

да

dvolodin #

06:53

гы

06:53

это не то

06:53

ты умудрился построить график с 16 мегами данных :)

zi_rus #

06:53

других нет

06:54

[root@noc noc]# grep TRACE noc-probe.*

06:54

[root@noc noc]# grep TRACE noc-pmwriter.*

06:54

[root@noc noc]#

06:54

ну да, я по звездочке же делал

dvolodin #

06:54

хех

zi_rus #

06:54

я пытался найти есть ли на каком порту errors

dvolodin #

06:55

ну не так же живодерски это делать

06:55

точнее -- хочешь живодерски - делай

06:55

но не так

06:55

там есть питоновский интерфейс для доступа к tsdb

IRevent #

06:55

dvolodin: почему с одного коммутатора не все линки в графане появились

06:55

./noc probeconfig --list | grep "inv.Interface ID" | wc -l

06:55

226

06:55

./noc ts --list | grep object.6509.interface.*.interface.load.in | wc -l

06:55

33

dvolodin #

06:56

IRevent: смотри профили, ifIndex

IRevent #

06:56

везде есть

dvolodin #

06:57

там где нет -- посмотри Metrics

06:57

прямо в веб-морде

zi_rus #

06:59

dvolodin, я пользуюсь инструментами которыми умею, если бы ты придумал тулзу как это делать удобнее, не спускаясь в питон, было бы хорошо

dvolodin #

07:00

наверное можно над отчетиком каким-нибудь подумать

07:00

но не сейчас

IRevent #

07:01

TRACE: Checking noc.pm.probes.generic.network.snmp_interface.SNMPInterfaceProbe.get_interface_load64

07:01

Matched handler noc.pm.probes.generic.network.snmp_interface.SNMPInterfaceProbe.get_interface_load64

07:01

как бы все хорошо

07:02

но в метриках его нет

dvolodin #

07:08

конфиг подобраля ему?

IRevent #

07:14

м?

ss_ #

07:48

upgrade: : Failed to pull repo http://hg.nocproject.org/noc

07:48

Terminating

07:48

че эт? после /opt/noc# ./scripts/upgrade

Unbeerable #

07:55

:)

07:55

https://bitbucket.org/nocproject/noc

07:55

REPO=https://bitbucket.org/nocproject/noc в etc/upgrade.conf

ss_ #

08:04

а зачем так сделали?

Unbeerable #

08:08

не знаю, наверное чтобы доступность кода была лучше на случай проблем с серверами нока

08:08

или может там более удобная схема совместной работы

08:08

всякие пул-реквесты и т.д.

ss_ #

08:13

upgrade: : Failed to pull repo https://bitbucket.org/nocproject/noc

08:14

там hg нужно?

zi_rus #

08:15

нет

08:15

REPO=https://bitbucket.org/nocproject/noc

ss_ #

08:17

хм

08:17

а че не пашет?

zi_rus #

08:18

хз

08:18

у меня пашет

08:18

Pulling repo https://bitbucket.org/nocproject/noc

08:18

pulling from https://bitbucket.org/nocproject/noc

08:18

searching for changes

08:18

no changes found

08:18

0 files updated, 0 files merged, 0 files removed, 0 files unresolved

08:18

Upgrading PIP

e_zombie #

08:21

что то у меня наблюдается ситуёвина что хосты добавленные через import не пропинговываются

ss_ #

08:27

root@monitor:/opt/noc# ./scripts/upgrade

08:27

Set up configuration files

08:27

Creating required directories

08:27

Checking virtualenv

08:27

Pulling repo https://bitbucket.org/nocproject/noc

08:27

not trusting file /opt/noc/.hg/hgrc from untrusted user noc, group noc

08:27

not trusting file /opt/noc/.hg/hgrc from untrusted user noc, group noc

08:27

abort: error: Connection timed out

08:27

upgrade: : Failed to pull repo https://bitbucket.org/nocproject/noc

08:27

Terminating

08:43

etc/upgrade.conf кто нить на пастебин залейте

08:48

есть ктьо живой?

dvolodin #

08:58

возьми upgrade.defaults

e_zombie #

08:59

dvolodin: возвращаюсь к вчерашнему разговору про отчёт доступности. ты будешь это править или забьёшь?

dvolodin #

08:59

ну не прямо сейчас

09:00

без ваших реальных данных трудно определить, стоит ли там что-нибудь править

e_zombie #

09:00

я подозреваю что там надо условия прописать по умолчанию что хост неживой.

09:00

и тогда оно заработает.

09:01

просто сейчаспо умолчанию есть что он ивой.

ss_ #

09:02

ping bitbucket.org

09:02

^CPING bitbucket.org (131.103.20.167) 56(84) bytes of data.

09:02

--- bitbucket.org ping statistics ---

09:02

22 packets transmitted, 0 received, 100% packet loss, time 20999ms

09:02

хм, наш днс не знает о bitbucket.org

e_zombie #

09:02

хотя в моём случае ping OK события нету

ss_ #

09:02

или он не пингуется?

dvolodin #

09:04

def get_availability(self, days):

09:04

now = datetime.datetime.now()

09:04

d = datetime.timedelta(days=days)

09:04

b = now - d

09:04

outages = defaultdict(int)

09:04

q = Q(start__gte=b) | Q(stop__gte=b)

09:04

for o in Outage.objects.filter(q):

09:04

там вот такое

09:04

попробуй посмотри для проблемной железки, что там в outages

09:05

посмотри view.py, мог и криво посчитать

09:06

если железка лежала дольше, чем окно проверки

ss_ #

09:08

upgrade: : Failed to pull repo https://bitbucket.org/nocproject/noc

09:08

Terminating

09:08

днс 8.8.8.8

09:08

конф upgrade.defaults

dvolodin #

09:11

ну не шмогла

e_zombie #

09:11

dvolodin: я вижу что эта формула будет плохо работать если там или нет вообще объектов или есть только один

ss_ #

09:12

а репа работает?*

dvolodin #

09:20

Outage обновляются по ping ok/ping faied

09:20

попробуй выбери для своей железки значения

09:20

и посмотри

IRevent #

09:21

(12:08:45) dvolodin: конфиг подобраля ему? - что ты имел ввиду?

e_zombie #

09:26

оноже должно отображаться в эвентах ? типа пинг ОК ?

09:27

http://i58.fastpic.ru/big/2015/0205/af/266ebeee4972f9598ed61671914568af.png

ss_ #

09:27

человеки помогите обновиться

09:28

e_zombie помоголо )

e_zombie #

09:29

ну вот видишь. а ты расстраивался

ss_ #

09:30

e_zombie, жаль что только морально а обновление не идет(

09:30

hg clone https://bitbucket.org/nocproject/noc а это пашет на другой тачке

09:34

куйня каято с маршрутизацией похоже

09:38

все вопрос снят, на серваке с маршрутами играл и один похерил)

dvolodin #

09:45

e_zombie: там отдельная коллекция есть, в которой фиксируются простои

ss_ #

09:46

Login failed due to internal error

09:47

залогиниться не могу

09:51

UNHANDLED EXCEPTION (2015-02-05 12:51:13.566012)

09:51

Working directory: /opt/noc

09:51

09:51

column sa_managedobjectprofile.enable_config_polling does not exist

09:51

LINE 1: ...rval", "sa_managedobjectprofile"."down_severity", "sa_manage...

09:51

это sa/mo

09:51

карты пустые

09:51

поломали демоны

09:54

Login failed due to internal error

09:54

что делать то?

09:55

база не мигрировала?

09:58

File: /opt/noc/sa/activator/activator.py (Line: 464)

09:58

Function: tick

09:58

457 # Cancel stale scripts

09:58

458 if self.get_state() == "ESTABLISHED":

09:58

459 self.cancel_stale_scripts()

09:58

460 # Run pending ping probes

09:58

461 if self.to_ping and self.get_state() == "ESTABLISHED":

09:58

462 self.run_ping_checks()

09:58

463 # Heartbeat when necessary

09:58

464 ==> if (self.heartbeat_enable and

09:58

465 (self.next_heartbeat is None or self.next_heartbeat <= t)):

09:58

466 self.heartbeat()

09:58

467 self.next_heartbeat = t + 3 # @todo: more accurate

09:58

468 # Run default daemon/fsm machinery

09:58

469 super(Activator, self).tick()

09:59

470

09:59

Variables:

09:59

self = <noc.sa.activator.activator.Activator object at 0x7ffb27bb6650>

09:59

t = 1423130310.869088

09:59

это в логах активатора

10:01

человеки

10:01

вы где

e_zombie #

10:06

dvolodin: > db.noc.fm.outages.find({"object" : 87382});

10:06

{ "_id" : ObjectId("54a67e3e989fcf4f8a017ddd"), "object" : 87382, "start" : ISODate("2015-01-02T14:17:18.099Z"), "stop" : ISODate("2015-01-02T14:19:01.226Z") }

10:06

{ "_id" : ObjectId("54bceb7e989fcf0138c75fa4"), "object" : 87382, "start" : ISODate("2015-01-19T14:33:18.854Z") }

10:06

>

ss_ #

10:17

dvolodin, как проверить база соответвует версии?

dvolodin #

10:30

ss_: есть скрипт upgrade, лучше им

10:30

:)

10:30

e_zombie: а, то есть для лежащих сейчас железок stop - пустой

e_zombie #

10:31

и?

dvolodin #

10:31

q = Q(start__gte=b) | Q(stop__gte=b) | Q(stop__exists=False)

10:31

вот на такое поправь

10:32

и будет тебе счастье

e_zombie #

10:32

рестартовать надо?

dvolodin #

10:32

noc-web только

10:33

я вообще уже злобно поглядываю на supervisord

10:33

в том плане, что я давно его в других проектах использую

10:33

может ланчер на него заменить?

e_zombie #

10:33

кхм.

dvolodin #

10:33

и сделать парочку плагинов

e_zombie #

10:33

вариант. сокращение кодовой базы

dvolodin #

10:34

да

10:34

он умный и у него cli есть свой

10:34

и умеет читать файлы из каталогов

10:34

при появлении

10:34

тогда и перезапуск из web-морды можно будет сделать

e_zombie #

10:35

идея хорошая но может сперва дошлифуем ?

10:35

кстати я хотел спросить ты возмёшь в девелоп профиль для железки для которой есть только get_version и то фейковый ?

10:36

вот что в отчёте

10:36

fsw3-2-lomonosova-18a-35-sarQtech.QSW2800Qtech QSW-2800-28T-AC 0% 0% 43.09%

10:36

получается что ок.

10:37

можно коммитить

dvolodin #

10:37

а на более длительный срок?

10:37

когда он еще был частично доступен?

10:37

а

10:37

вижу

e_zombie #

10:41

sw-7-4prokatnaya-15-35-sarHuawei.VRPHuawei S2326TP-EI 0% 0% 0%

10:41

вот это вроде случай когда ваще нету

10:41

сейчас гляну бд

10:42

> db.noc.fm.outages.find({"object" : 84899});

10:42

{ "_id" : ObjectId("5497da1e989fcf6496eb78ad"), "object" : 84899, "start" : ISODate("2014-12-22T11:45:18.052Z") }

10:42

>

dvolodin #

10:43

лежит больше месяца

10:46

сейчас отчет бъется со сторонними наблюдениями?

e_zombie #

10:47

ээээээ ?

10:47

яя пойду пообщаюсь по поводу валидности отчёта

dvolodin #

11:01

надо на нем баночку вазелина нарисовать

11:01

:)

e_zombie #

11:02

лолд

11:02

что то по отчёту у меня море железок которые в сети не живые последний месяц

zi_rus #

11:03

dvolodin, а с deferred что-нибудь починишь?

e_zombie #

11:03

кхм 250 штук

zi_rus #

11:04

мы тут изнемогаем

e_zombie #

11:15

dvolodin: клёва. спасибо за отчёт. пойду чистить базу и троллить руководство

11:16

слушай. а аналогичной баги нет в ФМ.

11:17

типа хост числится живым а на самом деле ему кирдык давно ?

dvolodin #

11:19

e_zombie: не должно бы

11:19

zi_rus: не воспроизводится у меня этот deferred

zi_rus #

11:19

то есть это мы с evyscr лохи?

e_zombie #

11:19

неудачнеги

11:29

слушай. а скажи как искать такую фигню.

11:29

может у меня тоже такая а я не замечаю

ss_ #

11:42

dvolodin, а как проверить этим скриптом

11:46

# ./scripts/upgrade

11:46

upgrade complete

11:57

крашинфо в логах много

11:57

кто подскажет как чинить?

11:58

есть кто живой?

11:59

есть кто живой?

zi_rus #

12:03

e_zombie, открыйвай железки которые падали и поднимались

12:04

и смотри у них дискавери

ss_ #

12:04

zi_rus, ты жив

zi_rus #

12:04

они становятся все пустыми

ss_ #

12:04

скажи что починить чтоб взлетело

zi_rus #

12:04

и на каждом пишет деферед

12:04

ss_, чини краши

ss_ #

12:04

так непомнимать что чинить

12:04

на базу ругается

zi_rus #

12:05

чини базу :)

12:05

"Доктор, у меня это"

ss_ #

12:05

http://pastebin.com/cvi4Rtvy

12:05

как чинить?

12:06

до апгреда все работало

12:06

после апгреда херушки

12:06

во время апргреда никаких ошибок

12:07

http://pastebin.com/7t2wXGhh

12:07

вот еще

12:07

и так по каждому процессу

12:08

Ну епте

12:08

куды ломать то?

12:08

с нуля поднимать все не вариант

zi_rus #

12:23

ss_, перезагрузись

ss_ #

12:24

нафига перегружать?

12:24

там не один нок крутится

12:25

бд рестарну

12:25

процессы нока тоже

12:27

zi_rus, LINE 1: ...rval", "sa_managedobjectprofile"."down_severity", "sa_manage...

12:27

я вижу что поменялась структура БД

12:28

кто может дать актуальную структуру базы?

12:49

людиии

12:50

где структура БД описана?

dvolodin #

12:53

ss_: в каталогах models

ss_ #

12:54

dvolodin, есть процедура провеки корректности БД?

13:06

dvolodin, немогу найти

13:06

точный путь есть?

mcsim #

13:27

Подскажите, на компе несколько сетевых интерфейсов для доступа в разные сети. Надо несколько активаторов для приема snmp и sysog поднимать ?

zi_rus #

13:27

нет

13:27

0,0,0,0

13:27

ss_, что ж ты сделал такого

13:28

у меня нормально все работает и апгрейдится и продолжает работать

ss_ #

13:30

неапгредил два месяца

13:34

не до этого было

13:37

ProgrammingError('column sa_managedobjectprofile.enable_config_polling does not exist\nLINE 1: ...rval", "sa_managedobjectprofile"."down_severity", "sa_manage...\n ^\n',)

e_zombie #

13:48

zi_rus:

zi_rus #

13:48

шта

e_zombie #

13:48

http://i65.fastpic.ru/big/2015/0205/92/509683653d6baf7a596348e4b0c43b92.png

13:48

http://i65.fastpic.ru/big/2015/0205/6a/03ecb581e4a0b27171990c34a1ed506a.png

13:48

http://i65.fastpic.ru/big/2015/0205/e0/e343782a91a7a133e2cdfd8026ce86e0.png

13:48

все железки падали сегодня

13:48

ааа бля

13:48

если она не поднялась - у неё значит дисаблед статус?

13:49

хотя нихуя. они поднялись

13:49

они счас в апе

zi_rus #

13:49

e_zombie, http://i65.fastpic.ru/big/2015/0205/30/a8095a9a1358070a62cf857881d05130.png

xetle #

13:50

ss_ при апгрейде миграция какаято не отработала.. Смотри где там column sa_managedobjectprofile.enable_config_polling добавляли.

13:50

Миграцию Sa смотри.

e_zombie #

13:50

что то у меня похожее было. гдето видел у себя.

mcsim #

14:05

zi_rus - там вроде как интерфейсы указаны (eth0). можно указать ip ?

zi_rus #

14:05

где там?

e_zombie #

14:07

https://pp.vk.me/c622920/v622920496/1c453/SdKmqPcWCDw.jpg

mcsim #

14:17

zi_rus: noc-activator.conf/[activator]/listen_traps=eth0

zi_rus #

14:18

listen_traps = 0.0.0.0

mcsim #

14:18

zi_rus: thnx

14:18

а у кого-нить есть скрипты для для huawei quidway 9300, 5300 ?

e_zombie #

14:28

не родился ещё такой

alamar #

17:29

can somebody give me a hint to where I can find the latest virtual image downloads?

Night_Snake_ #

19:17

а как починить базу, если custom_field добавился как0то зело криво

19:19

и этот самый custom_field щас не редактируется и не удаляется

19:22

http://pastebin.com/a7CvftjM

20:20

dvolodin глянь пожалуйста http://pastebin.com/a7CvftjM

20:20

я добавил кастом филд, но походу нифига он не добавился

20:20

и попутно базу поломла

dvolodin #

20:24

sae при этом лучше останавливать

zi_home #

21:03

dvolodin, а можно все-таки как-то ограничить юзеру запуск ран коммандс только на разрешенных железках?

21:05

очень надо

dvolodin #

21:15

:)

21:15

может все-таки давать выполнять только заданные сниппеты?

zi_home #

21:18

dvolodin, нет, не канает, наши шпдшники на свои железки ходят, им то одну настройку раскатать то другую, под сниппеты это не подогнать

dvolodin #

21:20

потом гляну, у меня увлекательное ковыряние в потрошках ExtJS

zi_home #

21:21

побыстрее бы

Night_Snake_ #

21:22

dvolodin а щас-то что делать? типа откатываться?

dvolodin #

21:22

удалить запись в main_customfield

21:23

запустить только noc-web и создать его заново

21:23

SAE насмерть держит таблицу sa_managedobject

21:26

zi_rus: ну не все сразу

21:26

я сегодня весь день убил на 2 PHP'шных модуля для pfSense

21:27

в результате сделал нормальный XML API для управления captive portal'ом

21:39

у нас же этот приказ по идентификации, который и на публичные wifi распространяется

21:58

я сделал feature branch extjs-5.1.0

21:58

предлагаю потестить, чтобы не было как в прошлый раз :)

21:59

там новый M2M Field, в селекторах можно выбирать более 25 других селекторов

21:59

:)

Share this page

Share this page: