Загрузка...

Парсинг headless браузеры.

Тема в разделе Node.js создана пользователем Denchiks 26 янв 2025. 295 просмотров

  1. Denchiks
    Denchiks Автор темы 26 янв 2025 13 24 ноя 2018
    Использую puppeteer. Пытаюсь спарсить сайт, делая один и тот же запрос с headless: false, ответ приходит нормальный, а вот при headless: "new" (т.е true) сайт как то чекает это и выкидывает ошибку типо я бот.
    Вопрос: Как сайты могут различать это и как сделать так чтобы запрос проходил с headless "new"?
     
  2. equilpres
    По User-Agent банально, в headless режиме там явно это указывается (HeadlessChrome)

    Использовать для этого готовые решения, например, Crawlee

    Примеры кода:
    https://crawlee.dev/docs/examples/puppeteer-crawler
    https://crawlee.dev/docs/examples/playwright-crawler
     
Загрузка...
Top