Парсинг и анализ топ рейтинга Самиздата (samlib.ru) v2.02 (СКД, XPath, Управляемые и обычные формы)

11.01.19

Интеграция - WEB-интеграция

Хочется почитать хорошую книгу? На сайте Самиздата samlib.ru публикуются сотни интереснейших книг... и тысячи, читать которые далеко не так интересно.

Скачать файлы

Наименование Файл Версия Размер
Парсинг и анализ топ рейтинга Самиздата (samlib.ru) v2.02 (СКД, XPath, Управляемые и обычные формы) 1С 8.3+
.erf 87,43Kb
24
.erf 2.05 87,43Kb 24 Скачать
Загрузка рейтинга публикаций на самиздате 1.15 (8.1 ,без СКД, без XPach)
.epf 24,79Kb
82
.epf V 2.03 24,79Kb 82 Скачать

 

Хочется почитать хорошую книгу? На сайте Самиздата zhurnal.lib.ru публикуются сотни интереснейших книг... и тысячи, читать которые далеко не так интересно.

Можно найти интересную книгу по рейтингу, но дело это непростое. Я ориентируюсь на размер книги (люблю крупные формы), жанры (предпочитаю фантастику и приключения), рейтинг (книги с низким рейтингом, как правило, не блещут) и количество голосов (маленькое количество проголосовавших говорит о низкой релевантности рейтинга). Вручную просматривать этот рейтинг занимает слишком много времени.  Для личного пользования я сделал обработку, которая загружает и фильтрует рейтинг согласно моим вкусам. Может быть, эта обработка пригодится и Вам.

v2.02  Переписано под СКД. Парсинг теперь делается средствами XPath через временный файл.  Скорость загрузки страниц увеличилась в разы.  Система хранит данные предыдущей загрузки рейтинга и позволяет отлавливать тренды с помощью фильтров СКД. Например, можно отловить быстро набирающие популярность, отсортировав по изменению количества проголосовавших. Пока убран индикатор загрузки. Парсинг осуществляется на сервере и индикация процесса без изменения конфигурации и без замедления парсинга оказалась твердым орешком.

Для работы нужна 8.3+. Работает в любой конфигурации.

Сделано, в основном, что б поиграться с еще  неопробованными мной технологиями.

v1.15 Добавлен индикатор прогресса загрузки страниц рейтинга, добавлен список жанров исключений. (Например, если вы захотите отсеять любовные романы)

За основу взята //infostart.ru/public/15955/.

Заранее благодарен за все комментарии и замечания.

 

Акция! Вы можете скачать эту разработку в  составе архива всех моих разработок, которые я предлагаю за StartMone, по Специальной  цене//infostart.ru/public/960899/#archive

СКД парсинг HTML XPath

См. также

Интеграция Альфа Авто 5 / Альфа Авто 6 и AUTOCRM / Инфотек

Сайты и интернет-магазины WEB-интеграция Платформа 1С v8.3 Конфигурации 1cv8 1С:Управление торговлей 11 Автомобили, автосервисы Россия Управленческий учет Платные (руб)

Интеграционный модуль обмена между конфигурацией Альфа Авто 5 и Альфа Авто 6 и порталом AUTOCRM. Данный модуль универсален. Позволяет работать с несколькими обменами AUTOCRM разных брендов в одной информационной базе в ручном и автоматическом режиме.

36000 руб.

03.08.2020    15747    10    17    

11

Интеграция 1С — Битрикс24. Обмен задачами

Сайты и интернет-магазины Интеграция WEB-интеграция Платформа 1С v8.3 Конфигурации 1cv8 Управленческий учет Платные (руб)

Интеграция 1С и Битрикс24. Разработка имеет двухстороннюю синхронизацию 1С и Битрикс24 задачами. Решение позволяет создавать пользователя в 1С из Битрикс24 и наоборот. Данная разработка технически подходит под все основные конфигурации линейки продуктов 1С:Предприятие 8.3 (8.3.18.1289). При приобретении предоставляется 1 месяц бесплатных обновлений разработки. Доступна демо-версия продукта с подключением Вашего Битрикс24

5040 руб.

04.05.2021    17549    6    15    

13

Интеграция с сервисом vetmanager

WEB-интеграция Платформа 1С v8.3 Бухгалтерский учет 1С:Бухгалтерия 3.0 Бытовые услуги, сервис Платные (руб)

Внешняя обработка разрабатывалась для загрузки документов из Ветменеджер в 1С: Бухгалтерия 3.0

12000 руб.

02.02.2021    16360    42    49    

23

[Расширение] БОР-Навигатор.Культура

Зарплата Бюджетный учет WEB-интеграция Обмен с ГосИС Платформа 1С v8.3 Сложные периодические расчеты 1С:Зарплата и кадры государственного учреждения 3 Государственные, бюджетные структуры Россия Бюджетный учет Платные (руб)

Расширение конфигурации, включающее в себя объекты, необходимые для подготовки и сдачи отчета "Штатная численность" системы "БОР-Навигатор.Культура" в программе "1С:Зарплата и кадры государственного учреждения", редакция 3.1.

8400 руб.

01.02.2019    25741    9    0    

7

Заполнение по ИНН или наименованию реквизитов контрагента по данным сайта ФНС

Обмен с ГосИС WEB-интеграция Платформа 1С v8.3 Управляемые формы 1С:Комплексная автоматизация 1.х 1С:Бухгалтерия 2.0 1С:Управление торговлей 10 1С:Управление производственным предприятием 1С:Управление нашей фирмой 1.6 1С:Бухгалтерия государственного учреждения 1С:Документооборот 1С:ERP Управление предприятием 2 1С:Бухгалтерия 3.0 1С:Управление торговлей 11 1С:Комплексная автоматизация 2.х Платные (руб)

Обработка является альтернативой механизму, разработанному фирмой 1С и заполняющему реквизиты контрагента по ИНН или наименованию. Не требуется действующей подписки ИТС. Вызывается как внешняя дополнительная обработка, т.е. используется, непосредственно, из карточки контрагента. Заполнение по ИНН или наименованию реквизитов контрагента по данным сайта ФНС (egrul.nalog.ru) для БП 2.0, БП 3.0, БГУ 1.0, БГУ 2.0, УТ 10.3, УТ 11.x, КА 1.1, КА 2.x, УПП 1.x, ERP 2.x, УНФ 1.5, УНФ 1.6, УНФ 3.0, ДО 2.1

2400 руб.

28.04.2016    88580    160    215    

318
Комментарии
В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
1. СергейКа 669 16.12.10 17:32 Сейчас в теме
Неплохо было бы прикрутить обработку прерывания.
А то промахнулся с количеством страниц - и можно ждать до "морковкиного заговенья" :)
А так же добавить в описание, что на управляемой форме не работает.
2. milkers 2859 16.12.10 20:54 Сейчас в теме
3. Yashazz 4709 21.12.10 17:46 Сейчас в теме
Времени копаться нету, а любопытно, потому вопрос: делали разбором DOM-модели?
4. milkers 2859 21.12.10 21:20 Сейчас в теме
(3)Нет. Поиск начала таблицы и конца таблицы. И обычный и парсинг.
6. milkers 2859 08.01.11 19:18 Сейчас в теме
5. tango 506 08.01.11 17:33 Сейчас в теме
7. graphbuh 254 21.08.14 15:14 Сейчас в теме
Интересно, а можно добавить функцию скачивания (допустим, в какую то директорию) и поиска по ключевым словам (допустим, используя яндекс). Учитывая конструкцию сайта это непросто, но всегда хочется невозможного )) уж такие мы , программисты
8. milkers 2859 21.08.14 15:58 Сейчас в теме
(7) graphbuh, можно сделать и гораздо лучше. Но если честно, даже не смотря на то что я на больничном жалко времени и сил, на то чтоб переделывать работающую вещь, особенно с не очень востребованным здесь функционалом. По хорошему, чтоб сделать утилиту современной надо сделать две вещи: избавиться от программного парсинга и передавать таблицу в компоновку данных, где пользователь сможет сам настраивать фильтры. Меня вполне устраивает текущий вариант.
9. milkers 2859 20.10.16 17:22 Сейчас в теме
(0) Выложил Парсинг и анализ топ рейтинга Самиздата v2.02 Переписано под СКД. Парсинг теперь делается средствами XPath через временный файл. Скорость загрузки страниц увеличилась в разы. Система хранит данные предыдущей загрузки рейтинга и позволяет отлавливать тренды с помощью фильтров СКД. Например, можно отловить быстро набирающие популярность, отсортировав по изменению количества проголосовавших. Пока убран индикатор загрузки. Парсинг осуществляется на сервере и индикация процесса без изменения конфигурации и без замедления парсинга оказалась твердым орешком.

Для работы нужна 8.3+. Работает в любой конфигурации.
10. desarz 63 09.11.16 17:44 Сейчас в теме
Преобразование значения к типу Число не может быть выполнено. Не работает однако :(
11. milkers 2859 09.11.16 21:02 Сейчас в теме
(10) desarz, Какая версия платформы, какая из обработок (их 2). Ну и в какой конфигурации запускали, в каком клиенте.
12. milkers 2859 12.02.18 16:40 Сейчас в теме
(0) Исправлена ошибка загрузки, возникшая при изменение дизайна страницы (добавлении рекламных блоков)
13. qazaas 15.10.18 16:43 Сейчас в теме
(0)(12)
{ВнешнийОтчет.ПарсингИАнализТопРейтингаСамиздата.Форма.ФормаОтчетаУправляемая.Форма(711)}: Ошибка при вызове конструктора (COMОбъект)
Скрипт = Новый COMОбъект("MSScriptControl.ScriptControl");
по причине:
-2147221164(0x80040154): Класс не зарегистрирован

P.S.: Что-то я не обнаружил там XPath.
14. milkers 2859 16.10.18 10:10 Сейчас в теме
(13) Напишите пожалуйста операционную систему, версию платформы и конфигурации 1С.
MSScriptControl.ScriptControl -не относится к XPath никак, вспомогательный инструмент, для подсчета времени формирования отчета.
Почему в Вашей системе не получается создать этот Com-объект - большой вопрос. У Вас не линукс случайно?
В принципе подсчет времени можно убрать из кода совсем, на результат это не влияет.
15. qazaas 16.10.18 12:10 Сейчас в теме
(14) Да это не очень важно. Если уж на то пошло, то могу и просто закомментировать это - не проблема. Я в 1С-ке разбираюсь)
У меня Windows 10, все обновления стоят. Microsoft Visual C++ Redistributable 2005, 2008, 2010, 2012, 2013, 2017 + последняя студия. Версия 1С 8.3.12.1616, конфигурация самописная.

И кстати, еще ругалось на "ПараметрыСеанса.ТекущийПользователь". Понял, что вы ее(обработку) использовали только в типовых конфигурациях, но лучше, думаю, изменить данную строку на "ПользователиИнформационнойБазы.ТекущийПользователь()".

Сейчас вот еще раз протестировал. Нашел еще одну ошибку - при выделении картинки "Самиздат" (достаточно просто по ней щелкнуть) появляется ошибка "Поле не обнаружено (Низ)" - указывает на функцию управляемой формы (я тестировал в управляемом режиме)
фПолучитьСуммуЧиселВыделеннойОбластиТабДок

строку
Для ЯчВерт = ВыделеннаяОбласть.Верх По ВыделеннаяОбласть.Низ Цикл

При отладке, в выделенной области свойство "Верх" имеется, а свойства "Низ" нет.

Про XPath - у вас в публикации написано, что она использует XPath. Так вот, проглядывать весь код, понятное дело, муторно, поэтому воспользовался поиском с ключевым словом "XPath", в надежде найти, что-то типа "ВычислитьВыражениеXPath", но увы - ничего не нашел. Потому и написал.

P.S. качал обработку с целью найти какие-либо новые методы для парсинга сайтов, но ваш метод я уже встречал. Эх... Но все равно спасибо за ваш труд.
16. milkers 2859 07.11.18 16:38 Сейчас в теме
(0) Изменился формат сайта, добавили рекламу. Подправил обработку, чтоб работала.
Оставьте свое сообщение