Парсинг сайта, тег script

1. user646807_kazako.a911 13 16.01.24 13:55 Сейчас в теме
Добрый день!

Хочу сделать бота для обхода сайта, но в лоб проблема не решается. При просмотре страницы в теле только теги с именами скриптов, например

<sc ript src="cd.js"></sc ript>

Данные внутри такого контейнера нельзя прочитать?

Как в этом случае парсят? Бот который информацию с экрана анализирует?
По теме из базы знаний
Ответы
Подписаться на ответы Инфостарт бот Сортировка: Древо развёрнутое
Свернуть все
4. user646807_kazako.a911 13 16.01.24 15:41 Сейчас в теме
(2)
Чем Ваша ссылка поможет решению проблемы?
5. user856012 13 16.01.24 17:50 Сейчас в теме
(4) Она содержит ответ на ваш вопрос:
Данные внутри такого контейнера нельзя прочитать?
6. user646807_kazako.a911 13 16.01.24 18:19 Сейчас в теме
(5)
Вопрос данной темы как распарить содержимое контейнера script, а не почему перестал работать Ваш алгоритм. Прошу не флудить если нет ответа по существу.
7. пользователь 16.01.24 20:34
Сообщение было скрыто модератором.
...
10. user646807_kazako.a911 13 16.01.24 21:11 Сейчас в теме
(7)
Решение есть, но оно с костылями, ещё раз, не пиши сюда, тебе ткнули, что для тебя решения нет, всё.
11. user1880116 16.01.24 21:15 Сейчас в теме
(10)
ещё раз, не пиши сюда,
Ну точно. Один интернат, одинаковая реакция, однаковые обиды...
Решение есть
Тогда к чему эта тема?
12. user646807_kazako.a911 13 16.01.24 21:20 Сейчас в теме
(11)
Чтобы получить ответ, есть ли более подходящее решение.

Конечно одинаковые реакции, зачем ты пишешь, если ничего не предлагаешь, ноль информативности. У тебя решения нет, всё, давай дальше, другие ветки мусори.
13. user1880116 16.01.24 21:25 Сейчас в теме
(12)
У тебя решения нет
Если я не хочу отдавать данные каждому встречному, я специально делаю так, чтобы их получение было как можно более гемморройным. Как видишь, всё работает отлично - на форумах рвутся жопы.
16. user646807_kazako.a911 13 16.01.24 21:42 Сейчас в теме
(13)
Мне кажется, кроме тебя ни у кого ничего не рвётся.
3. user1326147 16.01.24 15:24 Сейчас в теме
В основном используют ПО для тестирования, например Selenium.
8. пользователь 16.01.24 20:37
Сообщение было скрыто модератором.
...
9. user646807_kazako.a911 13 16.01.24 21:04 Сейчас в теме
(8)
Как показывает практика нубы-халявщики зачем-то пишут не в свою ветку.
Если в лоб проблема не решается не значит что решения нет, хотя может это не всем понятно.
14. user1880116 16.01.24 21:30 Сейчас в теме
А для нубасов-ботоводов, которые вбухивают силы и средства в разбор моих страничек, не желая пользоваться специально предоставляемым платным API, у меня есть еще одно, особое средство. Через API я отдаю корректную и актуальную информацию, а на сайте - устаревшую и с ошибками. Подумай над этим на досуге.
15. user646807_kazako.a911 13 16.01.24 21:38 Сейчас в теме
(14)
При чем тут твой АПИ кривой. Где он и где федеральный ресурс.
17. user1880116 16.01.24 21:44 Сейчас в теме
(15)
это обычный пользователь, который тыкает страницы
Драйвер Selenium влегкую палится по наличию в window своих переменных. Проверяется из того же самого скрипта, который отдает тебе данные, который ты обязан запустить, чтобы данные хотя бы увидеть.

Давай, жги дальше.
19. user646807_kazako.a911 13 16.01.24 21:52 Сейчас в теме
(17)
Ты же тут жжешь, вбросил какую-то ветку свою, за неимением знаний, и теперь выкручиваешься, как прорвало.
Сомневаюсь что selenium так просто распознается, зачем вбрасывать силы в большой проект, уже достаточно известный, чтобы потом специалист джуниор в пару кликов его забанил.

У меня изначально было решение использовать AutoIt, это решение в лоб, скролить листы, распознавать текст с экрана, позиционировать курсор на нужном слове, ссылке, проходить на страницу, копировать весь текст или часть.
21. user1880116 16.01.24 21:57 Сейчас в теме
(19)
зачем вбрасывать силы в большой проект, уже достаточно известный, чтобы потом специалист джуниор в пару кликов его забанил
Selenium, он не для парсинга сайтов написан, а для их тестирования. Я даже завидую твоей незамутненности.
18. user1880116 16.01.24 21:45 Сейчас в теме
(15)
Адрес сервиса напиши.
Ты капчу не пройдешь Вернее, уже не прошел.
20. user646807_kazako.a911 13 16.01.24 21:53 Сейчас в теме
(18)
Ясно, сервиса нет, просто видимо вбросил.
22. user1880116 16.01.24 21:58 Сейчас в теме
(20) Да нет, нет. Спи спокойно, качайся на волнах блаженного незнания.
23. user646807_kazako.a911 13 16.01.24 22:03 Сейчас в теме
(22)
Понял, как ты определишь что это AutoIt, а не человек тыкает по сайту. Дай адрес своего сервиса.
24. user1880116 16.01.24 22:12 Сейчас в теме
(23)
как
Да хотя бы по поведению, когда он начнет перемещаться неестественно и по паттернам. Сходи, что ли в гугль, узнай, например про "Вебвизор". Кстати, тут он тоже стоит, Доржи им "горячие точки" дизайна анализирует.
25. user646807_kazako.a911 13 16.01.24 22:20 Сейчас в теме
(24)
Ну хз, что там неестественного пользователь скролит, бот скролит, пользователь по ссылке проходит, бот проходит, пользователь копирует информацию, бот копирует, можно даже не копировать а с картинки распознавать. Нужны только новые последние данные с отбором по дню, это где-то 700-800 страниц в сутки, например если разбить на 10 машин то всего по 70-80 стр/сутки с разных айпи, весьма похоже на пользователя, добавить задержки между проходами по ссылкам. Манёвры небольшие. В общем хз на сколько эти данные с вебизора спасут информацию. К тому же очень странно со стороны сервиса отдавать по апи одну информацию, через браузер другую. С сервисом работает много людей и зачем он такой нужен если достоверность равна нулю.
26. user1880116 17.01.24 07:42 Сейчас в теме
(25)
по 70-80 стр/сутки
Ну, то есть такой живой пользователь, который заходит на сайт строго каждый день и производит строго одинаковые действия на 70-80 страницах. Ага.

С сервисом работает много людей
Через API, специально спроектированный и рассчитанный на нагрузку - да. Через сайт - 2-3 калеки.

и зачем он такой нужен
Не пользуйся. В этом, собственно, и цель.
27. user646807_kazako.a911 13 17.01.24 11:48 Сейчас в теме
(26)
Не понимаю, зачем кому-то твой кривой сервис? В чем твоя цель? Сделать кривой сервис? Писать ненужные сообщения? Я свои задачи решаю, сливаю базу к себе, чтобы продавать к ней доступ не через АПИ, а через свое расширение, которое имеет нормальный пользовательский интерфейс, обменивается с моим сервером, плюс в том, что не надо специалиста никакого для разработки, если есть 1С с более менее типовым функционалом на БСП, подключаешь расширение и работаешь.

Живой пользователь, который заходит на 70-80 страниц это вполне нормально, данные могут быть абсолютно разными, кто-то целый рабочий день сидит и информацию анализирует. И если 8 часовой рабочий день разделить на 80 страниц это 6 минут/страница.

Сейчас все работает через АПИ, можно покупать информацию один раз и продавать ее же сколько угодно раз, но так как есть возможность разработать бота который будет сливать всю информацию бесплатно почему бы не заняться такой автоматизацией. Если бы в этом крылись какие-то нерешаемые задачи. Думал, что есть более простые варианты извлечения информации из тега Script, но если их нет ничего страшного, задача все равно будет решена.

Но самый главный вопрос, зачем ты все время пишешь про свой авносервис?
28. пользователь 17.01.24 12:59
Сообщение было скрыто модератором.
...
29. пользователь 17.01.24 13:48
Сообщение было скрыто модератором.
...
Оставьте свое сообщение

Для получения уведомлений об ответах подключите телеграм бот:
Инфостарт бот