Загрузка...

Parsing Headless browsers.

Thread in Node.js created by Denchiks Jan 26, 2025. 298 views

  1. Denchiks
    Denchiks Topic starter Jan 26, 2025 13 Nov 24, 2018
    Использую puppeteer. Пытаюсь спарсить сайт, делая один и тот же запрос с headless: false, ответ приходит нормальный, а вот при headless: "new" (т.е true) сайт как то чекает это и выкидывает ошибку типо я бот.
    Вопрос: Как сайты могут различать это и как сделать так чтобы запрос проходил с headless "new"?
     
  2. equilpres
    По User-Agent банально, в headless режиме там явно это указывается (HeadlessChrome)

    Использовать для этого готовые решения, например, Crawlee

    Примеры кода:
    https://crawlee.dev/docs/examples/puppeteer-crawler
    https://crawlee.dev/docs/examples/playwright-crawler
     
Loading...
Top