Нужно спарсить с сайта 100.000+ данных, но чтобы их достать нужно листать страницу вниз, т.е. нужно перемотать где то 3.4к раз, через selenium дедик сидит вахуе, потому что система перегружается, пробовал через playwright - тоже так себе идея, headless режим положительных результатов не дал. Есть какие еще варианты, как можно спарсить данные?
Grennnick, 3. Парсинг через JS Rendering Если данные загружаются динамически (например, через JavaScript), но вы не хотите использовать Selenium или Playwright из-за их производительности, можно попробовать оптимизировать подход: Pyppeteer: Это Python-обертка для Puppeteer, который работает через Chromium, но можно настроить так, чтобы использовать меньше ресурсов. Также поддерживает работу с динамическим контентом. Splash: Еще один инструмент для рендеринга JavaScript. Это легковесное решение для рендеринга страниц, без необходимости запускать полноценный браузер. Предложил вот это
глянь по запросам как у них данные получаются при скролле, потом напиши код, который будет отправлять такие же запросы, только, от твоего скрипта. Единственная проблема - всякие генерируемые токены/подписи при запросе, но, если это не прям что-то крупное, то не думаю, что возникнут какие-то проблемы
Что значит перегружается? Забивается RAM? Можешь чистить и оптимизировать дерево, но чуть упадет скорость скраппинга. Также, можешь попробовать посмотреть в сторону получения данных по API, вместо скраппинга
глянь сначала через консоль разработчка - может там есть прямые ссылки на данные, тогда можно просто через requests забрать. Если нет - используй асинхронные запросы, разбей на мелкие части, добавь задержки и ******. В крайнем случае юзай puppeteer-stealth вместо selenium, он полегче будет.