Volkov Sergey

128
Рейтинг

angernaughts



  •   Регистрация: 23.12.2013 (10 лет назад)

  •   Был(а) на сайте: 22.02.2017

Подписчики 3

Группы

Профессиональный разработчик

Рейтинг 128

Парсинг сайта без использования встроенного браузера для начинающих

Инструменты и обработки Системный администратор Программист Платформа 1С v8.3 Конфигурации 1cv8 Windows Абонемент ($m) Внешняя обработка (ert,epf) Сайты и интернет-магазины

Данная статья показывает пример парсинга одного конкретного сайта со своей структурой, на основе которого можно понять суть, методы и без особых проблем парсить другие сайты. Здесь описано: подключение к серверу, сохранение html-страницы на диск, загрузка и цикличный обход ее структуры, рекурсивный парсинг, загрузка картинок по ссылке на диск.

1 стартмани

20.11.2014    54147    214    angernaughts    37       

128

Комментарии

DevПарсинг сайта без использования встроенного браузера для начинающих#34 22.02.17 22:22
(33) Сейчас уже есть куча новых технологий, позволяющих делать все лучше и быстрее. Самый правильный выход здесь - создать прослойку с помощью другого программного обеспечения, которое бы парсило и сводило данные с разных источников к одному формату, который скармливался бы конфиге. Для ситуации, описанной в вашем вопросе, лучше всего подошел бы парсер на nodejs. Конечно, появляется потребность изучать сторонние технологии, но если мы не развиваемся - значит мы деградируем)
DevПарсинг сайта без использования встроенного браузера для начинающих#20 27.11.14 15:00
(18) Sykoku, читайте хотя бы часть текста публикации перед комментированием.
DevПарсинг сайта без использования встроенного браузера для начинающих#17 27.11.14 13:05
(16) Sykoku, а в 1С всегда так - где-нибудь что-нибудь обновили - переписывай.
Если вы хотите парсить развлекательные сайты, где куча всяких навороченных фич - эта статья не для вас. А для разбора товаров с сайта поставщика - весьма неплохо.
DevПарсинг сайта без использования встроенного браузера для начинающих#14 25.11.14 11:39
(12) karpik666, Скорее всего, здесь идет переадресация. В теле полученного файла или в куки посмотри, там должны быть какие-то намеки. Очень хорошо расписано по ссылке в комментарии (5), там даже есть разбор такой ситуации.
DevПарсинг сайта без использования встроенного браузера для начинающих#11 25.11.14 10:23
(10) monsta, https://tagul.com/
(4) cool.vlad4, я имею некоторые знания в верстке сайта, поэтому база, на которой я строил парсер уже была. За пару часов накатал. Статью дольше писал. А починить парсер, да вообще не проблема. У такого типа сайтов вряд ли часто изменяется дизайн (хтмл-код), поэтому, вряд ли придется часто допиливать.
(5) Поручик, да, спасибо, мой метод - просто как костыль.
DevПарсинг сайта без использования встроенного браузера для начинающих#2 21.11.14 12:47
(1) Yashazz, Поделись. Я сам не так давно влез в это дело: появилась задача, начал гуглить, рыл, копал, нашел только про парсинг с браузером на форме. Случайно наткнулся на комментарий про DOM и решил поглядеть, что это. Для таких же, как я и написал эту статейку. Хотя бы вкратце опиши свой подход.
ОбменПарсинг товаров сайта средствами 1С 8#51 20.11.14 16:15
Описал немного иной способ парсить сайт, аналогичный этому, но без использования браузера на форме - http://infostart.ru/public/314045/
DevПарсинг сайта без использования встроенного браузера для начинающих#0 20.11.14 15:25
Данная статья показывает пример парсинга одного конкретного сайта со своей структурой, на основе которого можно понять суть, методы и без особых проблем парсить другие сайты.
Здесь описано: подключение к серверу, сохранение html-страницы на диск, загрузка и цикличный обход ее структуры, рекурсивный парсинг, загрузка картинок по ссылке на диск.