Помогите с чего начать при парсинге сайта

1. husky 6 23.10.14 14:51 Сейчас в теме
Всем привет!
Помогите с чего начать, нужно пропарсить страницы сайта
https://rosreestr.ru/wps/portal/cc_information_online?KN=10:01:0130139:23
выбрать таблицу ГКН, и потом из открывшейся табллицы собрать все данные. Читаю разные статьи а как код начать писать не могу понять, какие конструкции здесь использовать (в том числе при переходах между страницами).

Заранее спасибо.
По теме из базы знаний
Ответы
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
2. Boneman 298 23.10.14 14:55 Сейчас в теме
(1) husky, и какое это имеет отношение к 1С ?
4. Xershi 1490 23.10.14 16:53 Сейчас в теме
(1) husky, обычно работу с сайтом организовывают через файлы XML. Грузят туда, а через 1С уже анализируем его.
9. husky 6 27.10.14 08:09 Сейчас в теме
(8) KonstB, пользовался -хорошая обработка, но только она использует API у данного сайта, а у него не полная информация (не все кадастровые участки есть), поэтому надо юзать он-лайн червис (https://rosreestr.ru/wps/portal/cc_information_online?KN=), через него уже все участки можно найти.
10. Xershi 1490 27.10.14 09:26 Сейчас в теме
(9) husky, так в описании написано что должна быть запись в регистре, она у вас была?
11. husky 6 27.10.14 09:31 Сейчас в теме
(10) Xershi, конечно, я даже вречную алгоритм этот по своим участкам проверял - не все участки он находит это 100%, могу дать который не находит, ну к примеру 10:02:0080612:66. Сейчас вообще накрылся этот API. У меня находит всего 2% участков.
12. infostart user 20 27.10.14 11:23 Сейчас в теме
(1) husky, при парсинге сайта, нужно начать с изучения структуры страницы сайта.
проанализировать несколько страниц с результатом, а именно исходный код результата, проверить, что в результате получается одна и та же структура и с теми же элементами и классами, чтобы потом по ним можно было парсить. обычно сайты верстаются блоками, нужно определить блок где находится нужная информация и парсить только его, чтобы зря не парсить всю страницу. это, то с чего нужно начать.

ПС опять же, если есть доступ к АПИ, то лучше написать в тех поддержку и спросить "втф", почему полноценно не работает АПИ?
3. Hitchenson91 13 23.10.14 16:51 Сейчас в теме
Практичное :) не все же госреестр парсят, большинство парсят яндекс маркет например. Лично могу только статью посоветовать. http://infostart.ru/public/88106/
6. husky 6 26.10.14 01:24 Сейчас в теме
дабрался до самой страницы html, пробую вот таким кодом данные считать, но не получается

   ЧтениеHTML = Новый ЧтениеHTML;
   ЧтениеHTML.УстановитьСтроку(СтрокаХТМЛ);
   ПостроительDOM = Новый ПостроительDOM;
   ЗапросHTTP = ПостроительDOM.Прочитать(ЧтениеHTML);

   ЭлементыDOM = ЗапросHTTP.ПолучитьЭлементыПоИмени("td");
    
    Характеристики = Новый ТаблицаЗначений;
    
    ПредыдущийЭлементDOM = Неопределено;
    
    Характеристики.Колонки.Добавить("Колонка1");
    Характеристики.Колонки.Добавить("Колонка2");
    
    Для Каждого ЭлементDOM Из ЭлементыDOM Цикл
		Если ЭлементDOM.ИмяКласса = "brdw1010" Тогда
            НоваяСтрока = Характеристики.Добавить();
            НоваяСтрока.Колонка1 = СокрЛП(ЭлементDOM.ТекстовоеСодержимое);
            
            ПредыдущийЭлементDOM = ЭлементDOM;
Показать
,
имя класса: td class="brdw1010"
сам код страницы:

<td class="brdw1010" width="100%">

                <table border="0" cellspacing="8" cellpadding="0" width="100%">

                	<tr>

                        <td align="left" valign="top" width="250" nowrap="true">

                            Кадастровый номер:

                        </td>

                        <td width="75%" valign="top">

                           10:02:0020102:160

                        </td>

                    </tr>

                    <tr>

                        <td align="left" valign="top" width="250" nowrap="true">

                            <nobr>Статус земельного участка:</nobr>

                        </td>

                        <td width="75%">

                                Учтенный

                        </td>

                    </tr>

                    <tr>

                        <td align="left" valign="top" width="250" nowrap="true">

                            <nobr>Дата постановки на кадастровый учет:</nobr>

                        </td>

                        <td width="75%">

                            01.08.2011

                        </td>

                    </tr>
Показать

Подскажите таблицу заполнить:

Кадастровый номер 10:02:0020102:160,
Статус земельного участка: Учтенный,
Дата постановки на кадастровый учет:01.08.2011,
7. virtual.victor 26.10.14 22:54 Сейчас в теме
можно использовать com-object WinHttp.WinHttpRequest чтобы отправить заполненную форму.
а потом VBScript.RegExp чтобы разобрать ответ от сервера
Оставьте свое сообщение

Для получения уведомлений об ответах подключите телеграм бот:
Инфостарт бот