1С: Документооборот, Data Science и Python

0. 50 04.08.20 07:46 Сейчас в теме
В статье рассказывается о создании и обучении модели Data Science на языке Python и интеграции с системой 1С: Документооборот

Перейти к публикации

Комментарии
В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
1. YPermitin 11130 08.08.20 17:18 Сейчас в теме
(0) Все отлично сделали!

Захотелось самому с этим поработать :)
3. Vaganov_Alexey 50 10.08.20 10:54 Сейчас в теме
(1) спасибо. Если будут вопросы обращайтесь. Я не великий профессионал в Data Sience, но что знаю, подскажу. Уверен, что сам механизм машинного обучения рабочий и его можно и нужно использовать.
2. comol 4715 09.08.20 03:08 Сейчас в теме
Круть. А то мало практических примеров использования ML c 1С как выяснили.
Классификатор текстов мы в OneRPA универсальный делали... в подобном кейсе наверное прокатил бы.

В статье что-то больше "из учебника по ML в Python" - несколько вопросов:
1) На морфологию и очистку слов забили? Сначала же вроде чистят
2) DeepPavlov вроде несколько упростит эту историю если использовать
3) http сервис используется для классификации? Управляется через 1С? Или отдельно?
4) Дообучение с каким интервалом? И почему Excel а не "более приятный" источник данных?
5) Не пробовали дерево решений внутри 1С построить? В вашем кейсе может прокатило бы?
4. Vaganov_Alexey 50 10.08.20 11:08 Сейчас в теме
(2) спасибо. Машинное обучение интересно именно с точки зрения практического применения, поэтому и написал статью, чтобы показать, что это все работает и подход вполне технологичен. Может быть кого-то заинтересует ML, попробует и появится еще больше практического контента.

1) Морфологию? я привожу слова в нормальную форму. или что-то еще? В этом примере я не использовал стоп-слова и он дал качественный результат. Когда делал автоматическую связь документов, то пришлось вводить стоп-слова и общепринятые и те которые сильно сбивали алгоритм
2) deeppavlov - спасибо за информацию, почитаю.
3) http сервис поднят на flask, а 1С-ка обращается к нему. Да, в этом примере простая бинарная задача классификации
4) пока не дообучал. Не думаю, что в этом примере это актуально. Люди пишут как правило одно и тоже. Но если увижу, что сильно алгоритм врет, то, скорее всего обучу заново.
5) дерево решений внутри 1С? это как?
8. avryanovalexey 84 01.03.21 12:13 Сейчас в теме
(4) А зачем дерево решений внутри 1С? Это же как минимум вычислительно неэффективно. И трудоёмко с точки зрения разработки.
Я так понял автор использовал уже готовые популярные библиотеки для ML. Скорее всего эта библиотека написана на C++. Эта библиотека будет работать в 1000 раз быстрее и в десятки раз лучше и точнее, чем любая "самописная поделка" деревьев решений на языке 1С. 1С, прекрасная для своих учетных задач, но не надо на ней большие математические вычисления делать. Она для этого плоха.
5. avryanovalexey 84 28.02.21 09:29 Сейчас в теме
А какие метрики получились? На сколько точно предсказывает модель?

А так идея применения и реализация выглядят очень классно и не сложно
6. Vaganov_Alexey 50 01.03.21 11:39 Сейчас в теме
(5) Метрику использовал вот такую scoring = 'roc_auc', best_csore был вот такой 0.9736540311933585
Работает в общем-то довольно точно.

Но это была проба пера.

На данный момент настроил еще:
- автоматическую связь документов. система анализирует тексты документов, и если видит в тексте ссылку на другие документы, формирует связь документов
- автоматическую сепарацию документов по скан-образам. система по pdf скану определяет вид документа, и в зависимости этого выполнят те или иные действия.

В общем все это довольно эффективно работает
7. avryanovalexey 84 01.03.21 12:02 Сейчас в теме
хорошее значение метрики. Прикольный результат.

А в целом без ML задача решалась? Детерменированный алгоритм можно было написать? С четким условием классификации?
Я понял, что хотелось именно ML в учебных целях, но все-таки?
9. Vaganov_Alexey 50 02.03.21 08:35 Сейчас в теме
(7) Да, это был тестовый пример. Думаю, без ML именно эту задачу можно было решить. Составить список слов, парсить строки. Но с ML это эффективнее, я просто указываю нужные фразы, а алгоритм сам находит значимые признаки (слова), обучается по ним, и потом при получении новой фразы, которую он никогда не видел - правильно классифицирует. И делает это очень быстро.
Оставьте свое сообщение
Вопросы с вознаграждением
Вакансии
Руководитель проектов 1С
Москва
зарплата от 200 000 руб.
Полный день

Консультант-аналитик 1С
Нижний Новгород
зарплата от 55 000 руб. до 100 000 руб.
Полный день

Аналитик 1С ERP
Санкт-Петербург
зарплата до 200 000 руб.
Полный день

Программист 1С
Санкт-Петербург
зарплата от 150 000 руб.
Полный день

Программист 1С
Казань
зарплата от 105 000 руб.
Полный день