Загрузка...

CyberScraper 2077 | AI-powered web scraper

Thread in Articles created by APT29388 Oct 6, 2024. (bumped May 17, 2025) 560 views

  1. APT29388
    APT29388 Topic starter Oct 6, 2024 ГУРУ ИНВАЙТА - lolz.live/threads/8567181 :admin:
    CyberScraper 2077 — веб-скрапер, который словно веб-разведчик на стероидах, агрегирующий в себе последние достижения ИИ от таких гигантов, как OpenAI, Gemini и Ollama.

    Особенности данного инструмента:

    • Извлечение на основе искусственного интеллекта: Использует передовые модели искусственного интеллекта для интеллектуального понимания и анализа контента
    • Удобный и минималистичный интерфейс
    • Поддержка нескольких форматов: экспортируйте свои данные в JSON, CSV, HTML, SQL или Excel – в любом удобном для вас формате cyberdeck
    • Скрытый режим: реализованы параметры скрытого режима, которые помогают избежать обнаружения в качестве бота
    • Поддержка Ollama: Используйте огромную библиотеку LLM с открытым исходным кодом
    • Асинхронные операции: молниеносная очистка, которой позавидовала бы бригада травматологов
    • Интеллектуальный синтаксический анализ: структурирует очищенный контент так, как если бы он был извлечен прямо из инграммы главного netrunner
    • Кэширование: Реализовано кэширование на основе контента и запросов с использованием кэша LRU и пользовательского словаря для сокращения избыточных вызовов API
    • Загрузка в Google Таблицы: теперь вы можете легко загружать извлеченные CSV-данные в Google Таблицы одним щелчком мыши
    • Обход капчи: обходите капчу, используя -captcha в конце URL-адреса. (В настоящее время работает только нативно, не работает в Docker)
    • Текущий браузер: функция текущего браузера использует ваш локальный экземпляр браузера, что поможет вам обойти 99% систем обнаружения ботов. (Используйте только при необходимости)
    • Режим ****** (скоро появится): встроенная поддержка ******-серверов, чтобы вы могли скрытно перемещаться по сети
    • Перемещайтесь по страницам (BETA): перемещайтесь по веб-странице и собирайте данные с разных страниц


    Установка CyberScraper 2077:
    Code
    git clone https://github.com/itsOwen/CyberScraper-2077.git
    cd CyberScraper-2077
    virtualenv venv
    source venv/bin/activate # Optional
    pip install -r requirements.txt
    playwright install

    Установите ключ OpenAI и Gemini в вашей среде:
    Code
    export OPENAI_API_KEY="ваш_api_ключ"

    export GOOGLE_API_KEY="ваш_api_ключ"


    Установка Docker:
    Изначально вам необходимо скачать и установить Docker с официального сайта, далее выполнить данные команды:

    Code
    git clone https://github.com/itsOwen/CyberScraper-2077.git
    cd CyberScraper-2077
    docker build -t cyberscraper-2077 .
    docker run -p 8501:8501 cyberscraper-2077 #Без API ключа
    docker run -p 8501:8501 -e OPENAI_API_KEY="your-actual-api-key" cyberscraper-2077 #С OpenAI API
    docker run -p 8501:8501 -e GOOGLE_API_KEY="your-actual-api-key" cyberscraper-2077 #С Gemeni API
    После чего откройте http://localhost:8501, введите ссылку на сайт и попросите какие именно данные вам необходимо извлечь


    Использование:
    Code
    streamlit run main.py


    После чего откройте http://localhost:8501, введите ссылку на сайт и попросите какие именно данные вам необходимо извлечь

    1. Установите OLLAMA с помощью:
    Code
    pip install ollama
    2. Скачайте OLLAMA с официального сайта: https://ollama.com/download
    3. Введите: ollama pull llama3.1

    1. Перейдите в облачную консоль Google (https://console.cloud.google.com/ ).
    2. Выберите свой проект.
    3. Перейдите в раздел "API и сервисы" > "Учетные данные".
    4. Найдите ваш существующий идентификатор клиента OAuth 2.0 и удалите его.
    5. Нажмите "Создать учетные данные" > "Идентификатор клиента OAuth".
    6. Выберите "Веб-приложение" в качестве типа приложения.
    7. Назовите свой клиент (например, "Веб-клиент CyberScraper 2077").
    8. В разделе "Авторизованные источники JavaScript" добавьте:
    9. В разделе "Авторизованные URI перенаправления" добавьте:
    10. Нажмите "Создать", чтобы сгенерировать новый идентификатор клиента.
    11. Загрузите новый JSON-файл конфигурации клиента и переименуйте его в client_secret.json
     
    This article was useful for you?
    You can thank the author of the topic by transferring funds to your balance
    Thank the author
  2. живчик
    живчик Oct 6, 2024 хочу шаурму) 599 Oct 11, 2022
    ну и годноту кидаешь :+rep:
     
Loading...
Top