0. akimych 176 05.10.18 17:32 Сейчас в теме

Мониторинг показателей систем 1С 8.3 с помощью Zabbix

Опишу свой опыт мониторинга наших систем 1С с помощью Zabbix и ту пользу, которую можно извлечить из этого.

Перейти к публикации

Комментарии
Избранное Подписка Сортировка: Древо
1. mityushov.vv 129 06.10.18 15:42 Сейчас в теме
Добрый день, отличная статья.
Но я бы попросил вас бы добавить описание что именно вы мониторите и т.д. Либо прикрепил ссылки на статьи где описано в чем именно полезность данного механизма. Я знаю что можно мониторить взаимодействие 1С с веб и http сервисами, а что еще можно получить при помощи данного мониторинга, конкретно на примерах из жизни что это дает в части отслеживания проблем и скорости их устранения?
4. Region102 33 07.10.18 08:06 Сейчас в теме
(1) Если вы не знаете зачем мониторить сервер 1С, то это вам не нужно. А когда у вас 500+ пользователей в онлайне, и падает сервак за 10 мультов, то звонок от буха идет не вам, а сразу директору.
5. mityushov.vv 129 07.10.18 11:03 Сейчас в теме
(4) Меня всегда смешили люди, которые считают себя умнее других. Вообще вопрос был не к вам, и вопрос был не в том нужно или нет. Я знаю для чего нужен Заббикс и т.д. я хотел подробнее познакомиться с опытом коллег. Это всегда бывает полезно сколько бы человек не работал в ИТ.
В следующий раз вообще не пишите комментарии, чем писать такое.
wowik; d4rkmesa; AlexK_2012; deevil; +4 Ответить
9. user612295_death4321 07.10.18 15:27 Сейчас в теме
(5)
да смешили люди, которые считают себя умнее других. Вообще вопрос был не к вам, и вопрос был не в том нужно или нет. Я знаю для чего нужен Заббикс и т.д. я хотел подробнее познакомиться с опытом коллег. Это всегда бывает полезно сколько бы человек не работал в ИТ.
В следующий раз вообще не пишите комментарии, чем писать такое.


Честно говоря, меня тоже вводит в некоторое замешательство Ваш вопрос, но давайте я поделюсь опытом своего предприятия.

У нас тоже построены дашбоарды графаны на основании данных заббикса. Мы создали дашбоард в разрезе каждой базы куда выведены ключевые показатели производительности наших серверов (1С + MS SQL).
Общие MS SQL + 1C.
За ключевые счетчики мы посчитали: Нагрузка ЦП, Очередь ЦП, % использования РАМ, Очередь диска, время обращение к диску, нагруженность сети, наличие свободного места на диске, доступность сервера, время отклика. Если речь о СУБД, то в счетчики в разрезе всех дисков (С, tempDB, Диск с базой).

Только для 1С:
Наличие установленной блокировки входа в базу, наличие установленной блокировки для регламентных заданий в базу, текущий потребляемый объем памяти в разрезе рп хостов. Так же прикручена логика если вдруг какой то из счетчиков выйдет из зеленой зоны сразу же запуститься скрипт на powershell который выведет топ 5 пользователей в консоли отсортированных по колонке захвачено СУБД.

Только для СУБД:
Процент попадания в буферный кэш, время жизни страницы в буфере, количество латчей, статистика ожиданий. + данные регламентных заданий на СУБД, были ли они выполнено успешно.

Данные из СХД:
Счетчик загруженности операциями IO с СХД.
p.s: не обращайте внимание на отсутствие значений, сейчас в работе у нас модернизация нашего текущего железа, в связи с чем мы тестируем разные СХД от вендеров, а в графане подвязан счетчик от другого Луна.

Ниже прикладываю скрины как выглядит мой дашбоард, ну и подобный дашбоард у меня в разрезе каждой базы.

Ну а на вопрос "Конкретно на примерах из жизни что это дает в части отслеживания проблем и скорости их устранения?" я бы ответил, что это дает очень удобную визуализацию, что именно является узким горлышком в момент появлении проблемы с производительностью баз данных + отправка СМС ответственным лицам с информацией о том, что просели ключевые счетчики, подключись посмотри.

Ну и так же такой момент, что в графану мы выводим только ключевые счетчики, есть куча других счетчиков которые собирает заббикс к которым точно так же прикручены алармы. Недавно прикрутили новый alarm который отслеживает размер ldf файла, который по неизвестным мне причинам не очищался после инкриментального бэкапа, а в конечном итоге вырос до огромных размеров.
Прикрепленные файлы:
Liris; awk; Paradise.87; deevil; Upiterus; JohnyDeath; user793685; Азверин; Anchoret; Rego1337h; MOPC; wowik; Irwin; mityushov.vv; botokash; fancy; CSiER; zeegin; RM_1; akimych; eeeio; acanta; +22 Ответить
15. akimych 176 07.10.18 22:02 Сейчас в теме
(9)
Недавно прикрутили новый alarm который отслеживает размер ldf файла, который по неизвестным мне причинам не очищался после инкриментального бэкапа, а в конечном итоге вырос до огромных размеров.


Спасибо в целом за детальный ответ.
У нас тоже есть проблема с ростом ldf, причина роста понятна, это не отрабатывал бэкап. Можно пример как сделан такой аларм.
Есть мысли мониторить рост баз в скуле и заодно ldf.
19. mityushov.vv 129 08.10.18 13:58 Сейчас в теме
(9) Ну вот, хороший ответ. А то начинают некоторые умничать)))) Спасибо за ответ. Конечно это все можно прочитать в литературе и т.д. хотелось от конкретных людей услышать применение Заббикс в части 1С. А удивляетесь вы зря, на многих предприятиях даже и этого не настроено и люди сидят вычисляют в консоли серверов 1С кто же что там "съел" и так далее и то после того как начинают звонить пользователи и ругаться что все тормозит люто. Далеко не каждый настраивает эти вещи. Может быть админы там что то и анализировали, но до 1С это у нас не доходило либо я про это не слышал))))
21. user612295_death4321 08.10.18 17:22 Сейчас в теме
(19) скажу так, года 2-3 назад мы были теми людьми которые что-то там в консоли пытались поймать))))
Terve!R; mityushov.vv; +2 Ответить
22. mityushov.vv 129 08.10.18 17:32 Сейчас в теме
23. Terve!R 10.10.18 07:49 Сейчас в теме
(21) вот я сейчас на этой стадии нахожусь и не знаю что, как и где смотреть почему периодически тормозит и подвисает 1С )
Мониторинг это хорошо, но ничего не выйдет без понимания что это за показатели и какие цифры для них это нормально, а какие уже беда.
Или вот допустим запустил кто-то средь бела дня перепроведение тысяч документов за несколько лет, и на какие показатели смотреть и как вычислять этого пользователя?) Консоль в таких случаях кажется совсем бесполезной. Может подскажете литературу где такие вопросы и ключевые показатели работы 1С сервера рассматриваются?
24. user612295_death4321 10.10.18 22:28 Сейчас в теме
(23)
кументов за несколько лет, и на какие показатели смотреть и как вычислять этого пользователя?) Консоль в таких случаях кажется совсем бесполезной. Может подскажете лите


А в таких случаях я использую свой второй козырь :) Графана очень хорошо помогает визуализировать данные заббикса, а вот активность пользователей 1С я предпочитаю смотреть в PowerBI, т.к. очень гибкие отборы могу задать на вход и видеть всю динамику в разрезе всего (времени, базы, имени пользователя, запросов, стеков вызовов, блокировках (субд, 1с), да и вообще на что фантазии хватит). Данные в PowerBI заливаются с трассировок MS SQL + Технологический журнал 1С. В планах подкрутить еще несколько фишек, но дай бог времени, сил и терпения.

А по Вашему случаю надо понять что является узким горлышком в системе, как правило это либо проблемы параллельности (ожидания на блокировках), либо в нехватке аппаратных ресурсов (высокая нагрузка на процессор, большое потребление оперативной памяти, нестабильная сеть), с админом общались на тему торможения? Какие цифры это нормально, я думаю тут очень интимный момент и подбирается под систему индивидуально )

Из литературы могу посоветовать только то, что читал сам лично:
1. Настольная книга 1С:Эксперта по технологическим вопросам. 2 издание (http://v8.1c.ru/metod/books/book.jsp?id=499).
2. Методическое пособие по эксплуатации крупных информационных систем на платформе «1С:Предприятие 8».
3. PDFка, от по производительности на много страниц, но она мне показалась не такой увлекательной как первые 2 книги, но возможно это связано с тем, что я читал её еще тогда когда вообще мало что понимал.

Если что пиши можем поковырять, может смогу чем-то помочь.
Прикрепленные файлы:
akimych; Terve!R; JohnyDeath; +3 Ответить
27. akimych 176 11.10.18 14:14 Сейчас в теме
(24)
Данные в PowerBI заливаются с трассировок MS SQL + Технологический журнал 1С. В планах подкрутить еще несколько фишек, но дай бог времени, сил и терпения.


Мне не приходило в голову использовать PowerBI для мониторинга. Это реально интересно, вот если бы вы сделали статью об этом, то было бы здорово.

У нас сейчас грозит рост объемов в 2 раза и такой мониторинг мог бы помочь.
25. user612295_death4321 10.10.18 22:33 Сейчас в теме
(23) Я тут писал огромное сообщение в которое вложил душу, но инфостарт выдал ошибку и резко все закрылось )

Ну тогда краткая выдержка.

1. Что говорит админ по поводу торможений?
2. Из литературы могу посоветовать то, что читал сам лично:
- Настольная книга 1С:Эксперта по технологическим вопросам. 2 издание
- Методическое пособие по эксплуатации крупных информационных систем на платформе «1С:Предприятие 8»
- PDFка по производительности с курсы-по-1с на кучу страниц.
3. Если Вы уверены, что точно кто-то занимается перепроведением кучи документов, можно как вариант рассмотреть запрос к регистру версий объектов, сгруппировав по пользователю, а если хотим просто выловить кто из пользователей вносит самый большой вклад, то надо изучать возможности технологического журнала и SQL трассировок.
acanta; Terve!R; +2 Ответить
26. Terve!R 11.10.18 09:59 Сейчас в теме
(25) вот поэтому я иногда копирую текст набранного сообщения в буфер, а потом нажимаю кнопку отправить)
Сервер мощный довольно, загрузка CPU около 20%, админ говорит в SQL ничего странного не видит.
Насчет перепроведений это не точно, просто иногда жуткие тормоза какое-то время. Хотел ЦУП поставить посмотреть, но конечно все равно надо с тех. журнала начинать настройку и данные какие-то начать собирать. Я так понимаю визуализировать их потом можно где угодно, просто кроме ЦУПа раньше инструментов не было.

(24)(25) спасибо за информацию по книгам, обязательно почитаю!
33. savostin.alex 47 15.11.18 02:36 Сейчас в теме
(26)
Такое бывает при выключении процесса и передаче соединений вновь созданному.
28. akimych 176 11.10.18 14:24 Сейчас в теме
(23)
Я бы сказал, что консоль 1С поможет в большинстве таких случаях.
Если кто-то запустил перепроведение 1000 документов в середине дня, то в консоли надо смотреть на показатели "Memory Current" и "DBMS data", если они превышают пороговое значение (для нас ~5 ГБ для Memory Current), то явно пользователь что тяжелое запустил.


Есть планы вывести в Zabbix 3 пользователей с самыми большими значениями этих показателей и мониторить это.


Из недавнего юзер запустил Универсальный отчет по Бух. регистру без отбора (потом сказал, что забыл поставить отбор:-)). в итоге rphost набрал 55 ГБ, хорошо, что алерт сработал и мы успели убить эту сессию, иначе бы 1С свалился.
Прикрепленные файлы:
29. user612295_death4321 11.10.18 14:59 Сейчас в теме
(28) А как настройки кластера подобное пропустили?
30. akimych 176 11.10.18 15:28 Сейчас в теме
(29) мы не ставим ограничение по кол-ву памяти.
на мой взгляд, странно принудительно рестартовать prhost и отваливать все процессы, если какая-то сессия сожрала слишком много. Есть шанс успеть ее принудительно отключить и все остальные будут жить.
31. user612295_death4321 11.10.18 15:47 Сейчас в теме
(30) Насколько помню настройки кластера позволяют ограничить объем потребляемой памяти за один вызов, в этом случае не должно быть рестарта РП хоста, а будет попытка дропнуть проблемную сессию.
32. akimych 176 11.10.18 17:55 Сейчас в теме
(31) да точно, но что -то не хочется на проде экспериментировать.:-)
34. Sergey.Noskov 1031 17.11.18 19:20 Сейчас в теме
(30) падение всего кластера vs рестарт одного rphost. Причем во втором случае реально пострадают только те, кто в момент рестарта процесса выполнял код, остальные спокойно мигрируют на другой процесс.
ЗЫ но это КОРП лицуха
2. akimych 176 06.10.18 18:22 Сейчас в теме
Добрый день, спасибо.

Мы в основном контролирую с помощью Заббикса нагрузку на серверах 1С и интеграционные очереди.

С помощью Заббикса мы нашли, какие наши регл. задания съедали по 10-15 ГБ памяти и были причиной падения rphost'а.
Сейчас у нас на показателе память rphost'а стоит триггер, которые присылает нотификацию, в случае превышения определенного порога.

На скриншоте с rphost'ом видна загрузка его в течении дня и это нормальный график для нас, если начинается отклонение, то где-то проблема.

Контролируя интеграционные очереди, мы видим, где у нас узкие места в интеграции и начинаем копать там. Также благодаря Забикксу мы точно можем спрогнозировать какое количество событий может 1С обработать за определенный период.

Я подумаю, какие еще примеры из практики по 1С можно добавить к статье.
d4rkmesa; AlexGroovy; eeeio; mityushov.vv; +4 Ответить
3. s22 20 06.10.18 21:14 Сейчас в теме
(2)
Я подумаю, какие еще примеры из практики по 1С можно добавить к статье.

Озвучьте весь список пожалуйста. ойек....

список и как достучаться до всего что есть.

Заранее спасибо.
6. mityushov.vv 129 07.10.18 11:08 Сейчас в теме
(2) Большое спасибо за ответ. Лучше бы конечно добавить весь перечень узких мест, механизмов и сервисов которые можно контролировать при помощи Zabbix.
Тогда статья бы получилось полной на все 100% и была бы полезна как разработчикам, админам и руководителям ИТ подразделений.
7. DrAku1a 1302 07.10.18 12:55 Сейчас в теме
Не описано - на каких версиях платформы 1С это будет работать (у меня в таком виде - не пропускает модератор).
HTTP-сервисы доступны с версии 8.3.5.1068. На более ранних версиях - нужно делать костыли или выкручиваться через web-сервисы.
14. akimych 176 07.10.18 21:57 Сейчас в теме
(7) ну почему же не описано ,есть такое:
в статье над кодом есть строка: Примеры кода 1С приложены в обработке к статье, код протестирован на платформе 1С 8.3.10.2669.
8. as 07.10.18 14:16 Сейчас в теме
Мы достаточно успешно используем шаблон к Zabbix:
https://github.com/bessonovevgen/srv-1c-zabbix-template
Его важным плюсом является работа через ras, благодаря чему он работает под linux\win.
JohnyDeath; deevil; zeegin; +3 Ответить
10. tindir 07.10.18 18:49 Сейчас в теме
В продолжение глупых вопросов. Сколько кушает агент забикса? Вопрос к тому что есть глупый сервак на котором крутится все (скуль, агнты1с,лицензии) и пока иет согласование новых игрушек хочется подоткнуть мониторинг, причем желательно с максимальной задержкой в 3-5 секунд.
13. akimych 176 07.10.18 21:54 Сейчас в теме
(10) забирает он совсем не много: 8-10 MB ОП и 0.1 % от общей загрузки процессоров. Он не должен существенно грузит сервер. Но у нас сбор данных настроен от 30 до 60 секунд.
mityushov.vv; tindir; +2 Ответить
17. tindir 08.10.18 05:07 Сейчас в теме
(13) Ага, спасибо. На текущий момент серваки все виндовые и коллега одмин-1ц пользуется перфоманс манагером, который настроен только у него и когда нужно что-то где-то глянуть, то это прям головная боль =)))
11. zeegin 42 07.10.18 21:02 Сейчас в теме
Создать http сервис, который съест лицензию, чтобы по COM (на сервере, что не рекомендуется ни 1с ни майкросфтом) залезть на кластер? И это чтобы посчитать количество лицензий!
Используйте ras! Выше уже дали ссылку на готовый шаблон от тов. Бессонова.
12. akimych 176 07.10.18 21:49 Сейчас в теме
(11) Забавно, а ведь я даже не подумал об этом в таком ключе.
этот шаблон я видел. и про использование ras я думал, но не стал: http сервис проще и отрабатывает буквально за секунду и в общей массе не влияет на количество занятых лицензий; в 13 платформе появилась новая возможность Контроль потребления ресурсов и можно будет как-то автоматизировано собирать статистику с кластера - надо будет посмотреть на это.
16. zeegin 42 08.10.18 01:22 Сейчас в теме
(12) Ага
Для утилиты rac при выводе информации о сеансе реализованы свойства cpu-time-current, cpu-time-5min-last, cpu-time-total

Источник: http://downloads.v8.1c.ru/content//Platform/8_3_13_1549/1cv8upd_8_3_13_1549.htm#b5a30ffb-0b1f-11e8-a3f7-0050569f678a
18. Synoecium 629 08.10.18 07:49 Сейчас в теме
Хорошая статья, в избранное.
А что делает обработка, приложенная к статье?
20. akimych 176 08.10.18 16:56 Сейчас в теме
(18) Спасибо.
Обработка ничего не делает, в ней примеры кода получения кол-во лицензий (это есть в статье) и кол-ва сессий (это дополнительно).
35. Дмитрий74Чел 125 01.04.19 17:12 Сейчас в теме
Добрый день, коллеги.

Вопрос автору:
Если все-таки отладчик покажет, что строка возврата верная, то скорее всего запрос внутри 1С отрабатывает, более 20 секунд и этом случае Zabbix считает, что ответа нет и выдает ошибку, описанную выше.
- не нашел выше упоминание ошибки.

Вопросы всем: по статье (вариант "сбор данных через REST интерфейс") сделал 3 items, но все время они "отваливаются" - в списке "Элементы данных" напротив каждого стоит восклицательный знак с пояснением "ZBX_TCP_READ() timed out". Интервал обновления items стоит 60s, и при проверке через браузер вроде-бы не замечаю долгого ответа (более чем 12-18сек). Как сделать так чтоб эта ошибка не прерывала сбор данных?

Еще в примере автора есть формирование ответа в виде json-файла с несколькими показателями сразу. Как можно настроить zabbix так, чтобы он из одного такого ответа http-сервиса записывал несколько items?
36. akimych 176 02.04.19 11:30 Сейчас в теме
(35) Добрый день

Ошибка такого свойства "Value "" of type "string" is not suitable for value type "Numeric (unsigned)". Поправил в статье :-).


Если возможно прикрепите скрины с настройкой item и текст ключа. Если через в браузере ответ возвращается, то скорее всего проблема в настройке item. Если можно еще скрин с ответом, который возвращается в браузере.

Еще в примере автора есть формирование ответа в виде json-файла с несколькими показателями сразу. Как можно настроить zabbix так, чтобы он из одного такого ответа http-сервиса записывал несколько items?
- а это описание здесь https://infostart.ru/public/546523/
37. Дмитрий74Чел 125 02.04.19 11:56 Сейчас в теме
(36) Скриншоты прикрепил.
А про сбор сразу всех - ковыряю зависимые items
Прикрепленные файлы:
38. akimych 176 03.04.19 11:34 Сейчас в теме
(37) текст ключа корректен. Значит дело не в настройках item.
тут надо похоже глубже копать, в конфиге Zabbix Agentd. Тут мне сложно помочь, у нас этим отдельная служба занимается.
39. Дмитрий74Чел 125 03.04.19 14:04 Сейчас в теме
(38) в конфиге сервера zabbix стоит timeout 4 сек. А 1С ответ дает часто 10 сек. Нач.админов менять timeout не хочет, так что переходим на план Б (546523).
Оставьте свое сообщение
Новые вопросы с вознаграждением
Автор темы объявил вознаграждение за найденный ответ, его получит тот, кто первый поможет автору.

Вакансии

Программист 1С
Ижевск
зарплата от 70 000 руб. до 94 000 руб.
Полный день

Программист 1С
Санкт-Петербург
зарплата до 120 000 руб.
Полный день

Программист 1С
Санкт-Петербург
Полный день

Консультант 1С
Нижний Новгород
зарплата до 100 000 руб.
Полный день