Загрузка...

Как спарсить сайт?

Тема в разделе Python создана пользователем Grennnick 14 ноя 2024. 302 просмотра

  1. Grennnick
    Grennnick Автор темы 14 ноя 2024 Работаю на количество, а не на количество 13 107 2 апр 2021
    Нужно спарсить с сайта 100.000+ данных, но чтобы их достать нужно листать страницу вниз, т.е. нужно перемотать где то 3.4к раз, через selenium дедик сидит вахуе, потому что система перегружается, пробовал через playwright - тоже так себе идея, headless режим положительных результатов не дал. Есть какие еще варианты, как можно спарсить данные?
     
    1. Посмотреть предыдущие комментарии (2)
    2. slide
      Grennnick,
      3. Парсинг через JS Rendering

      Если данные загружаются динамически (например, через JavaScript), но вы не хотите использовать Selenium или Playwright из-за их производительности, можно попробовать оптимизировать подход:

      Pyppeteer: Это Python-обертка для Puppeteer, который работает через Chromium, но можно настроить так, чтобы использовать меньше ресурсов. Также поддерживает работу с динамическим контентом.
      Splash: Еще один инструмент для рендеринга JavaScript. Это легковесное решение для рендеринга страниц, без необходимости запускать полноценный браузер.
      Предложил вот это
    3. Grennnick Автор темы
      slide, ну про splash он мне ещё не говорил
    4. slide
      Grennnick, я просто твой запрос фулловый ему вбил, он мне выдал несколько вариантов
  2. Passwordll
    Passwordll 14 ноя 2024 8 28 фев 2024
    нажми cntrl + a и все выделиться
     
    1. ванечка
  3. Toil
    Toil 15 ноя 2024 ������� ������ :coder: 3543 18 ноя 2018
    глянь по запросам как у них данные получаются при скролле, потом напиши код, который будет отправлять такие же запросы, только, от твоего скрипта. Единственная проблема - всякие генерируемые токены/подписи при запросе, но, если это не прям что-то крупное, то не думаю, что возникнут какие-то проблемы
     
  4. TheBoossya
    TheBoossya 15 ноя 2024 121 28 авг 2019
    Что значит перегружается? Забивается RAM? Можешь чистить и оптимизировать дерево, но чуть упадет скорость скраппинга. Также, можешь попробовать посмотреть в сторону получения данных по API, вместо скраппинга
     
  5. umikud
    umikud 15 ноя 2024 Заблокирован(а) 3458 24 дек 2021
    глянь сначала через консоль разработчка - может там есть прямые ссылки на данные, тогда можно просто через requests забрать. Если нет - используй асинхронные запросы, разбей на мелкие части, добавь задержки и ******. В крайнем случае юзай puppeteer-stealth вместо selenium, он полегче будет.
     
    1. Grennnick Автор темы
    2. umikud

      Grennnick,
Top
Загрузка...