Распознавание (конвертация) pdf. Оптическое распознавание (использование OCR Tesseract)

26.11.21

Разработка - Инструментарий разработчика

Опыт работы с распознаванием pdf. Конвертация pdf в текст. Оптическое распознавание (OCR Tesseract)

Скачать исходный код

Наименование Файл Версия Размер
Распознавание (Конвертация) pdf. Оптическое распознавание:
.epf 8,45Kb
40
.epf 8,45Kb 40 Скачать

Возникла необходимость распознавать pdf файлы. Наткнулся на работы 

//infostart.ru/public/1217607/

//infostart.ru/public/1535600/

Очень интересно. Первый вариант очень хорошо работает с пдф файлами, которые сохранены из word, excel или другие программы, но он не распознает отсканированные документы (пдф, собранный из картинок).

Вторая работа тоже очень интересная, захотелось опробовать оба, собрать в одной обработке и описать в данной статье.

Первый вариант, описанный в //infostart.ru/public/1217607/ - работает очень хорошо

 

 

Но стоить распечатать и отсканировать данный текст - уже не распознает

Воспользуемся OCR Tesseract

Скачал его отсюда https://github.com/UB-Mannheim/tesseract/wiki

Суть его работы очень простая: подаете на вход картинки - на выходе получаете текст. Управление через командную строку.

1. Преобразуем ПДФ в картинки - любым удобным способом (я воспользовался работами из //infostart.ru/public/1217607/)

2. Разместил их в каталоге временных файлов    

ФайлывКаталоге = НайтиФайлы(КаталогСохраненияФайлов,"*.png");
    ФайлыКУдалению = новый Массив;
    
    ТекстИзПДФ = "";
    
    Для каждого Элемент Из ФайлывКаталоге Цикл
                    
        ЗапуститьПриложение("""C:\Program Files\Tesseract-OCR\tesseract.exe"" """+Элемент.ПолноеИмя+""" "+КаталогСохраненияФайлов+"\Text_"+Элемент.ИмяБезРасширения+" -l rus",,Истина);  //Скармлеваем тесеракту  
            
        Текст = Новый ЧтениеТекста;
        Текст.Открыть(КаталогСохраненияФайлов+"\Text_"+Элемент.ИмяБезРасширения+".txt",КодировкаТекста.UTF8);   //считываем распознанный текст           
        Строка = Текст.ПрочитатьСтроку();

        Пока Строка <> Неопределено Цикл                  

            ТекстИзПДФ = ТекстИзПДФ + Строка+Символы.ПС;
            Строка = Текст.ПрочитатьСтроку();             

        КонецЦикла; 
        Текст.Закрыть();
        
        ФайлыКУдалению.Добавить(Элемент.ПолноеИмя);
        ФайлыКУдалению.Добавить(КаталогСохраненияФайлов+"\Text_"+Элемент.ИмяБезРасширения+".txt");
    КонецЦикла;
    //Удаляем все созданные файлы
    Для каждого Стркудал Из ФайлыКУдалению Цикл
    
        УдалитьФайлы(Стркудал);    
    
    КонецЦикла;

Все

Реализовал это в обработке 

 

 

Тестировалась на платформе 8.3.17.2256. ОС Windows (x64).

Обработку скачивать не обязательно, все описано выше и вышеуказанных работах.

Распознавание пдф Распознование pdf дпф распознавание

См. также

Infostart Toolkit: Инструменты разработчика 1С 8.3 на управляемых формах

Инструментарий разработчика Роли и права Запросы СКД Платформа 1С v8.3 Управляемые формы Запросы Система компоновки данных Конфигурации 1cv8 Платные (руб)

Набор инструментов программиста и специалиста 1С для всех конфигураций на управляемых формах. В состав входят инструменты: Консоль запросов, Консоль СКД, Консоль кода, Редактор объекта, Анализ прав доступа, Метаданные, Поиск ссылок, Сравнение объектов, Все функции, Подписки на события и др. Редактор запросов и кода с раскраской и контекстной подсказкой. Доработанный конструктор запросов тонкого клиента. Продукт хорошо оптимизирован и обладает самым широким функционалом среди всех инструментов, представленных на рынке.

10000 руб.

02.09.2020    127019    687    389    

738

Infostart PrintWizard - создание и редактирование печатных форм в 1С 8.3

Пакетная печать Печатные формы Инструментарий разработчика Платформа 1С v8.3 Запросы 1С:Зарплата и кадры бюджетного учреждения 1С:Конвертация данных 1С:ERP Управление предприятием 2 1С:Управление торговлей 11 Платные (руб)

Инструмент, позволяющий абсолютно по-новому взглянуть на процесс разработки печатных форм. Благодаря конструктору можно значительно снизить затраты времени на разработку печатных форм, повысить качество и "прозрачность" разработки, а также навести порядок в многообразии корпоративных печатных форм.

18000 руб.

06.10.2023    8412    24    6    

46

Infostart УДиФ: Управление данными и формами 1С

Инструменты администратора БД Инструментарий разработчика Роли и права Платформа 1С v8.3 Конфигурации 1cv8 Россия Платные (руб)

Расширение позволяет без изменения кода конфигурации выполнять проверки при вводе данных, скрывать от пользователя недоступные ему данные, выполнять код в обработчиках. Не изменяет данные конфигурации, легко устанавливается практически на любую конфигурацию на управляемых формах.

10000 руб.

10.11.2023    4734    12    2    

38

SALE! %

PowerTools

Инструментарий разработчика Инструменты администратора БД Платформа 1С v8.3 Управляемые формы Конфигурации 1cv8 Россия Платные (руб)

Универсальный инструмент программиста для администрирования конфигураций. Сборник наиболее часто используемых обработок под единым интерфейсом.

3600 2280 руб.

14.01.2013    178937    1085    0    

862

Бустер Конвертации данных 3 (Infostart Toolkit)

Инструментарий разработчика 8.3.14 1С:Конвертация данных Россия Платные (руб)

Расширение для конфигурации “Конвертация данных 3”. Добавляет подсветку синтаксиса, детальную контекстную подсказку, глобальный поиск по коду.

15000 руб.

07.10.2021    15115    3    12    

37

Многопоточность. Универсальный «Менеджер потоков» 2.1

Инструментарий разработчика Платформа 1С v8.3 Конфигурации 1cv8 Россия Платные (руб)

Восстановление партий или взаиморасчетов, расчет зарплаты, пакетное формирование документов или отчетов - теперь все это стало доступнее. * Есть желание повысить скорость работы медленных алгоритмов! Но... * Нет времени думать о реализации многопоточности? * о запуске и остановке потоков? * о поддержании потоков в рабочем состоянии? * о передаче данных в потоки и как получить ответ из потока? * об организации последовательности? Тогда ЭТО - то что надо!!!

5000 руб.

07.02.2018    99880    240    97    

298

1С HTML Шаблоны / HTML Templates

Инструментарий разработчика Платформа 1С v8.3 Конфигурации 1cv8 Платные (руб)

Быстрая и удобная обработка для работы с шаблонами HTML. Позволяет легко и быстро формировать код HTML.

2040 руб.

27.12.2017    28427    4    10    

16

[ЕХТ] Фреймворк для Расширений 1С

Инструментарий разработчика Платформа 1С v8.3 Управляемые формы Платные (руб)

"Фреймворк для Расширений 1С" это универсальное и многофункциональное решение, упрощающее разработку и поддержку создаваемых Расширений. Поставляется в виде комплекта из нескольких Расширений с открытым исходным кодом. Работает в любых Конфигурациях в режиме Управляемого приложения с режимом совместимости 8.3.12 и выше без необходимости внесения изменений в Конфигурацию.

3000 руб.

27.08.2019    18522    6    8    

40
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. SerVer1C 763 27.11.21 23:27 Сейчас в теме
Дело в том, что в компоненте ArrowPDF не реализован OCR движок, но есть возможность банального извлечения текстового слоя из PDF.
2. Lera_1c 15 29.10.22 14:27 Сейчас в теме
Скажите, получится ли png распознать? Не из pdf
Хочу чеки самозанятых обработать. Там png форматы
3. vlaskin 82 09.02.23 18:11 Сейчас в теме
Оставьте свое сообщение