1C:Бухгалтерия
Платформа 1С v8.3
8.3.14
8.3.6
8.3.8
Россия
Корп. решения 1С
Управленческий учет
Программист
Добрый день!
Хочу сделать бота для обхода сайта, но в лоб проблема не решается. При просмотре страницы в теле только теги с именами скриптов, например
<sc ript src="cd.js"></sc ript>
Данные внутри такого контейнера нельзя прочитать?
Как в этом случае парсят? Бот который информацию с экрана анализирует?
Хочу сделать бота для обхода сайта, но в лоб проблема не решается. При просмотре страницы в теле только теги с именами скриптов, например
<sc ript src="cd.js"></sc ript>
Данные внутри такого контейнера нельзя прочитать?
Как в этом случае парсят? Бот который информацию с экрана анализирует?
По теме из базы знаний
- Заполнение контрагента по ИНН или наименованию реквизитов по данным сайта ФНС в 1С: 8.3
- Самый простой парсинг и обработка веб-страниц в 1С
- Управление Selenium Web Driver из 1С (или парсинг из 1С по-взрослому)
- Открытый пакет интеграций для OneScript
- OInt CLI - приложение Открытого пакета интеграций для командной строки
Ответы
Подписаться на ответы
Инфостарт бот
Сортировка:
Древо развёрнутое
Свернуть все
А для нубасов-ботоводов, которые вбухивают силы и средства в разбор моих страничек, не желая пользоваться специально предоставляемым платным API, у меня есть еще одно, особое средство. Через API я отдаю корректную и актуальную информацию, а на сайте - устаревшую и с ошибками. Подумай над этим на досуге.
(15)
Давай, жги дальше.
это обычный пользователь, который тыкает страницы
Драйвер Selenium влегкую палится по наличию в window своих переменных. Проверяется из того же самого скрипта, который отдает тебе данные, который ты обязан запустить, чтобы данные хотя бы увидеть.
Давай, жги дальше.
(17)
Ты же тут жжешь, вбросил какую-то ветку свою, за неимением знаний, и теперь выкручиваешься, как прорвало.
Сомневаюсь что selenium так просто распознается, зачем вбрасывать силы в большой проект, уже достаточно известный, чтобы потом специалист джуниор в пару кликов его забанил.
У меня изначально было решение использовать AutoIt, это решение в лоб, скролить листы, распознавать текст с экрана, позиционировать курсор на нужном слове, ссылке, проходить на страницу, копировать весь текст или часть.
Ты же тут жжешь, вбросил какую-то ветку свою, за неимением знаний, и теперь выкручиваешься, как прорвало.
Сомневаюсь что selenium так просто распознается, зачем вбрасывать силы в большой проект, уже достаточно известный, чтобы потом специалист джуниор в пару кликов его забанил.
У меня изначально было решение использовать AutoIt, это решение в лоб, скролить листы, распознавать текст с экрана, позиционировать курсор на нужном слове, ссылке, проходить на страницу, копировать весь текст или часть.
(24)
Ну хз, что там неестественного пользователь скролит, бот скролит, пользователь по ссылке проходит, бот проходит, пользователь копирует информацию, бот копирует, можно даже не копировать а с картинки распознавать. Нужны только новые последние данные с отбором по дню, это где-то 700-800 страниц в сутки, например если разбить на 10 машин то всего по 70-80 стр/сутки с разных айпи, весьма похоже на пользователя, добавить задержки между проходами по ссылкам. Манёвры небольшие. В общем хз на сколько эти данные с вебизора спасут информацию. К тому же очень странно со стороны сервиса отдавать по апи одну информацию, через браузер другую. С сервисом работает много людей и зачем он такой нужен если достоверность равна нулю.
Ну хз, что там неестественного пользователь скролит, бот скролит, пользователь по ссылке проходит, бот проходит, пользователь копирует информацию, бот копирует, можно даже не копировать а с картинки распознавать. Нужны только новые последние данные с отбором по дню, это где-то 700-800 страниц в сутки, например если разбить на 10 машин то всего по 70-80 стр/сутки с разных айпи, весьма похоже на пользователя, добавить задержки между проходами по ссылкам. Манёвры небольшие. В общем хз на сколько эти данные с вебизора спасут информацию. К тому же очень странно со стороны сервиса отдавать по апи одну информацию, через браузер другую. С сервисом работает много людей и зачем он такой нужен если достоверность равна нулю.
(25)
по 70-80 стр/сутки
Ну, то есть такой живой пользователь, который заходит на сайт строго каждый день и производит строго одинаковые действия на 70-80 страницах. Ага.
С сервисом работает много людей
Через API, специально спроектированный и рассчитанный на нагрузку - да. Через сайт - 2-3 калеки.
и зачем он такой нужен
Не пользуйся. В этом, собственно, и цель.
(26)
Не понимаю, зачем кому-то твой кривой сервис? В чем твоя цель? Сделать кривой сервис? Писать ненужные сообщения? Я свои задачи решаю, сливаю базу к себе, чтобы продавать к ней доступ не через АПИ, а через свое расширение, которое имеет нормальный пользовательский интерфейс, обменивается с моим сервером, плюс в том, что не надо специалиста никакого для разработки, если есть 1С с более менее типовым функционалом на БСП, подключаешь расширение и работаешь.
Живой пользователь, который заходит на 70-80 страниц это вполне нормально, данные могут быть абсолютно разными, кто-то целый рабочий день сидит и информацию анализирует. И если 8 часовой рабочий день разделить на 80 страниц это 6 минут/страница.
Сейчас все работает через АПИ, можно покупать информацию один раз и продавать ее же сколько угодно раз, но так как есть возможность разработать бота который будет сливать всю информацию бесплатно почему бы не заняться такой автоматизацией. Если бы в этом крылись какие-то нерешаемые задачи. Думал, что есть более простые варианты извлечения информации из тега Script, но если их нет ничего страшного, задача все равно будет решена.
Но самый главный вопрос, зачем ты все время пишешь про свой авносервис?
Не понимаю, зачем кому-то твой кривой сервис? В чем твоя цель? Сделать кривой сервис? Писать ненужные сообщения? Я свои задачи решаю, сливаю базу к себе, чтобы продавать к ней доступ не через АПИ, а через свое расширение, которое имеет нормальный пользовательский интерфейс, обменивается с моим сервером, плюс в том, что не надо специалиста никакого для разработки, если есть 1С с более менее типовым функционалом на БСП, подключаешь расширение и работаешь.
Живой пользователь, который заходит на 70-80 страниц это вполне нормально, данные могут быть абсолютно разными, кто-то целый рабочий день сидит и информацию анализирует. И если 8 часовой рабочий день разделить на 80 страниц это 6 минут/страница.
Сейчас все работает через АПИ, можно покупать информацию один раз и продавать ее же сколько угодно раз, но так как есть возможность разработать бота который будет сливать всю информацию бесплатно почему бы не заняться такой автоматизацией. Если бы в этом крылись какие-то нерешаемые задачи. Думал, что есть более простые варианты извлечения информации из тега Script, но если их нет ничего страшного, задача все равно будет решена.
Но самый главный вопрос, зачем ты все время пишешь про свой авносервис?
Для получения уведомлений об ответах подключите телеграм бот:
Инфостарт бот