Загрузка...

Question for python experts (about regers/parsers)

Thread in Python created by Money_Back Jan 6, 2025. 320 views

  1. Money_Back
    Money_Back Topic starter Jan 6, 2025 1273 Jun 9, 2018
    Почему чаще всего регеры или парсеры пишут на Selenium , а не на запросах
    Не понимаю для чего костыли с выведением данных на экран и смотреть что делает твой скрипт
    Если на запросах всё быстрее и проще , а многие ошибки и так понятны на каком этапе они возникают (допустим капча), тк на всех этапах можно выводить print с разметкой сайта для просмотра ошибок и далее уже на готовом варианте их просто за комментировать
    +Селениум чаще всего палят сайты и тот же клауд
    Каждый запрос чаще всего можно легко отловить, тк если он если не выводится напрямую, то 100% через api и на эту apiшку можно слать запрос и её уже распарсивать и вытаскивать нужную инфу для парса или реги
    Так же и на YT все пишут на селенке и почти нема видосов на запросах
     
  2. Astagnar
    Astagnar Jan 7, 2025 2 Jan 2, 2025
    На Selenium иногда просто быстрее и проще делается, чем сидеть разбирать откуда берутся, где генерятся параметры для запроса и тд.
     
  3. Kiswill
    Kiswill Jan 7, 2025 14 Dec 4, 2022
    Иногда просто не получается работать с сайтом на запросах, причин может быть масса. Например, скрытая капча, без указание этого ключа, нужный ответ ты не получишь. Поэтому, на помощь приходит selenium
     
    1. Money_Back Topic starter
      Kiswill, ну если будет скрытая капча, то она и без запросов будет просто обычным юзерам она не видна,но если грамотно настроить входные данные на отправке запроса + норм ip , то запрос с скрипта сайт тоже пропустит. Или я ошибаюсь?
  4. Хаус
    Хаус Jan 7, 2025 Продам отдел диагностики 305 Sep 15, 2019
    Как по мне — селениум быстрее и проще в разработке, но предпочитаю ему всегда запросы, ибо они приятнее и быстрее, как для тестов так и конечного использования пользователем
    Де-факто селениум — это почти тот же самый бас, просто в программном виде, а нагружает он ее если не сильнее, то почти так же
    К твоему вопросу: отлавливать запрос, исследовать откуда что шифруется (если оно шифруется) иногда бывает просто впадлу, а с эмуляцией браузера может прокатить быстрее :cool_bun:
     
    1. Money_Back Topic starter
      Хаус, а можно совмещать селениум и запросы? к примеру если нужно нажать какую то кнопку то сделать это на селенке а вот уже добраться до этой кнопки уже с помощью запросов
    2. Хаус
      Money_Back, да, конечно
      Просто как по мне, будет чуть сложнее в разработке, переключать свое внимание с запросов на селениум и обратно, но это скажем, чисто субъективно
      Ты для чего-то конкретного спрашиваешь, либо так, интересуешься вопросом?
    3. Money_Back Topic starter
      Хаус, интересуюсь для общего познания
      Тк интересно мнение людей. А то так бы спросил у чата гпт
  5. KLINTXXXGOD
    KLINTXXXGOD Jan 7, 2025 </> Разработка - https://lolz.live/threads/7695405 761 Feb 10, 2023
    -Динамический контент JSы
    -Более удобен в работе
    -Работает с разными барузерами и операционками
    -Скрапинг страниц с динамическими-интерактивными элементами
    -Проще логировать всякую дребедень
     
    1. Солнцеестояние
      KLINTXXXGOD,
      aiohttp
      - Зачем нужен контент который берется из JS который берется из API путем какого нибудь XHR запроса?:thinking:
      - Еще более удобен в работе + асинхронность
      - Работает с любыми операционками (костыль в виде браузера отбрасываем)
      - Раз элементы динамические и интерактивные значит работа с API сайта
      - С логированием сложно поспорить ведь везде свои плюсы
      - Скорость работы
      - Если сайт большой с нормальной защитой то уйдет не мало времени на анализ api сайта и ее анализ
      - Легко интерпретировать curl запросы сразу допустим на python requests а потом с них на aiohttp если новокек

      Писал 1091010110 одинаковых проектов и на селениуме/playwright/юзал еще дольфин в качестве браузера и работал с ним но приоритет качества и скорости всегда остается за запросами
  6. SUAI
    SUAI Jan 7, 2025 2 Feb 15, 2022
    потому что не надо с запросами ебаться, а тут вот прямое и легкое решение :2011_nice:
     
Top
Loading...