Извлечение фрагментов html страницы с помощью выражений xpath

04.08.15

Интеграция - WEB-интеграция

Данная обработка (управляемая форма) позволяет извлекать фрагменты html страницы. Для работы понадобится url целевой страницы и выражение поиска. Если у вас используется проски сервер для выхода в интернет, то есть возможность указать его реквизиты. Вывод результатов поиска происходит в текстовый документ на закладке "результат".

Скачать исходный код

Наименование Файл Версия Размер
ИзвлечениеФрагметовHtmlСтраниц.epf
.epf 18,22Kb
16
.epf 18,22Kb 16 Скачать

Данный интрумент возможно будет полезен тем, кто занимается парсингом сайтов. У меня же часто возникала задача извлечь все ссылки из страницы сайта по определенному фильтру. Порядок работы у обработки следующий:

  1. Обработка загружает страницу в сыром (строковом) виде http запросом GET.
  2. Обработка создает на основе строки страницы объект html.
  3. Обработка копирует теги тела html документа и их атрибуты в документ DOM.
  4. С помощью выражения поиска ищутся фрагменты и помещаются в массив.
  5. Элементы массива выводятся в результат (текстовый документ). Если массив найденных элементов пустой, тогда выводится документ dom в виде xml. В дальнейшем xml можно обработать (протестировать) сторонними инструментами.

Тестирование с прокси сервером не проводил, потому как нет такого окружения. Если у вас не отрабатывает xpath запрос, то возможно, что запрос не верен, а также страница подгружается фрагментами к основной, то есть этих фрагментов просто нет. В конце концов это не браузер, а объект hhtp соединение. К обработке я написал небольшую справку, где есть примеры выражений xpath. Обработка самодостаточна и запустится даже в пустой конфигурации. Собствено суть этой разработки в ориганальности идеи переноса тегов документа html в документ dom, в котором и возможна работа с выражениями поиска xpath. Кроме того, ряд процедур и функций я использую как универсальные.

Парсинг http HTTPСоединение html xpath

См. также

Интеграция Альфа Авто 5 / Альфа Авто 6 и AUTOCRM / Инфотек

Сайты и интернет-магазины WEB-интеграция Платформа 1С v8.3 Конфигурации 1cv8 1С:Управление торговлей 11 Автомобили, автосервисы Россия Управленческий учет Платные (руб)

Интеграционный модуль обмена между конфигурацией Альфа Авто 5 и Альфа Авто 6 и порталом AUTOCRM. Данный модуль универсален. Позволяет работать с несколькими обменами AUTOCRM разных брендов в одной информационной базе в ручном и автоматическом режиме.

36000 руб.

03.08.2020    15955    13    18    

13

Заполнение по ИНН или наименованию реквизитов контрагента по данным сайта ФНС

Обмен с ГосИС WEB-интеграция Платформа 1С v8.3 Управляемые формы 1С:Комплексная автоматизация 1.х 1С:Бухгалтерия 2.0 1С:Управление торговлей 10 1С:Управление производственным предприятием 1С:Управление нашей фирмой 1.6 1С:Бухгалтерия государственного учреждения 1С:Документооборот 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х Платные (руб)

Обработка является альтернативой механизму, разработанному фирмой 1С и заполняющему реквизиты контрагента по ИНН или наименованию. Не требуется действующей подписки ИТС. Вызывается как внешняя дополнительная обработка, т.е. используется, непосредственно, из карточки контрагента. Заполнение по ИНН или наименованию реквизитов контрагента по данным сайта ФНС (egrul.nalog.ru) для БП 2.0, БП 3.0, БГУ 1.0, БГУ 2.0, УТ 10.3, УТ 11.x, КА 1.1, КА 2.x, УПП 1.x, ERP 2.x, УНФ 1.5, УНФ 1.6, УНФ 3.0, ДО 2.1

2400 руб.

28.04.2016    89024    163    216    

318

[Расширение] БОР-Навигатор.Культура

Зарплата Бюджетный учет WEB-интеграция Обмен с ГосИС Платформа 1С v8.3 Сложные периодические расчеты 1С:Зарплата и кадры государственного учреждения 3 Государственные, бюджетные структуры Россия Бюджетный учет Платные (руб)

Расширение конфигурации, включающее в себя объекты, необходимые для подготовки и сдачи отчета "Штатная численность" системы "БОР-Навигатор.Культура" в программе "1С:Зарплата и кадры государственного учреждения", редакция 3.1.

8400 руб.

01.02.2019    25892    9    0    

7

Интеграция с сервисом vetmanager

WEB-интеграция Платформа 1С v8.3 Бухгалтерский учет 1С:Бухгалтерия 3.0 Бытовые услуги, сервис Платные (руб)

Внешняя обработка разрабатывалась для загрузки документов из Ветменеджер в 1С: Бухгалтерия 3.0

12000 руб.

02.02.2021    16496    42    49    

23

Merlion Commander Версия 1.3.9.2 - июль 2022 г. (Интеграция с 1С: УT, редакция 11.4, 1С:Розница 2.3,1С:ERP Управление предприятием 2, УТ 10.3, редакция веб-сервиса MERLION API 3.0 от 18.08.2021)

Оптовая торговля Розничная торговля WEB-интеграция Платформа 1С v8.3 1С:Управление торговлей 11 Россия Платные (руб)

Расширении конфигурации "Управление торговлей, редакция 11" для работы с веб-сервисом Мерлион с помощью Merlion API. Расширение и набор подключаемых дополнительных обработок позволяет без изменения конфигурации получить возможность работы с API крупнейшего российского дистрибьютора http://merlion.com. Логика работы максимально приближена к работе веб-сервиса b2b. Вы сможете создать и исправить заказ, зарезервировать товар прямо из 1С, посмотреть актуальные остатки и цены, импортировать штрихкода EAN13 товаров, загружать заказ c автоматическим созданием номенклатуры в 1С и корректности создания. Можно выбирать характеристики по товарным группам и загружать товар с выбранными характеристиками, загружать изображения товара. Не требуется установки дополнительного ПО для работы с веб-сервисом. Кроссплатформенное решение для ОС Windows и Linux. Весь код модулей открыт и доступен для просмотра и внесения изменений.

8280 руб.

02.05.2017    41101    43    64    

50
Комментарии
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
1. AlX0id 05.08.15 10:38 Сейчас в теме
Блин, я уж подумал, 1сники наконец сделали xpath в html.. Крутая обработка, наверное, но все-таки получается так, что надо пересобрать дерево документа после его загрузки, а это дополнительные временные и вычислительные затраты..
2. makc2k 107 05.08.15 12:13 Сейчас в теме
Ничего не поделаешь, пока объектная модель документа html весьма скудна. Да собственно это второстепенный объект.
3. serega_new 15.09.15 17:49 Сейчас в теме
выложите плз в открытый доступ, хочется потестить)
4. makc2k 107 16.09.15 21:43 Сейчас в теме
Функция поиска с помощью xpath : Xpath

Процедура копирования (рекурсивного) из одного dom или html объекта в другой: Копирование
Оставьте свое сообщение