Всем привет!
Помогите с чего начать, нужно пропарсить страницы сайта
https://rosreestr.ru/wps/portal/cc_information_online?KN=10:01:0130139:23 выбрать таблицу ГКН, и потом из открывшейся табллицы собрать все данные. Читаю разные статьи а как код начать писать не могу понять, какие конструкции здесь использовать (в том числе при переходах между страницами).
(8) KonstB, пользовался -хорошая обработка, но только она использует API у данного сайта, а у него не полная информация (не все кадастровые участки есть), поэтому надо юзать он-лайн червис (https://rosreestr.ru/wps/portal/cc_information_online?KN=), через него уже все участки можно найти.
(10) Xershi, конечно, я даже вречную алгоритм этот по своим участкам проверял - не все участки он находит это 100%, могу дать который не находит, ну к примеру 10:02:0080612:66. Сейчас вообще накрылся этот API. У меня находит всего 2% участков.
(1) husky, при парсинге сайта, нужно начать с изучения структуры страницы сайта.
проанализировать несколько страниц с результатом, а именно исходный код результата, проверить, что в результате получается одна и та же структура и с теми же элементами и классами, чтобы потом по ним можно было парсить. обычно сайты верстаются блоками, нужно определить блок где находится нужная информация и парсить только его, чтобы зря не парсить всю страницу. это, то с чего нужно начать.
ПС опять же, если есть доступ к АПИ, то лучше написать в тех поддержку и спросить "втф", почему полноценно не работает АПИ?
Практичное :) не все же госреестр парсят, большинство парсят яндекс маркет например. Лично могу только статью посоветовать. http://infostart.ru/public/88106/
дабрался до самой страницы html, пробую вот таким кодом данные считать, но не получается
ЧтениеHTML = Новый ЧтениеHTML;
ЧтениеHTML.УстановитьСтроку(СтрокаХТМЛ);
ПостроительDOM = Новый ПостроительDOM;
ЗапросHTTP = ПостроительDOM.Прочитать(ЧтениеHTML);
ЭлементыDOM = ЗапросHTTP.ПолучитьЭлементыПоИмени("td");
Характеристики = Новый ТаблицаЗначений;
ПредыдущийЭлементDOM = Неопределено;
Характеристики.Колонки.Добавить("Колонка1");
Характеристики.Колонки.Добавить("Колонка2");
Для Каждого ЭлементDOM Из ЭлементыDOM Цикл
Если ЭлементDOM.ИмяКласса = "brdw1010" Тогда
НоваяСтрока = Характеристики.Добавить();
НоваяСтрока.Колонка1 = СокрЛП(ЭлементDOM.ТекстовоеСодержимое);
ПредыдущийЭлементDOM = ЭлементDOM;
Показать
,
имя класса: td class="brdw1010"
сам код страницы: