CyberScraper 2077 — веб-скрапер, который словно веб-разведчик на стероидах, агрегирующий в себе последние достижения ИИ от таких гигантов, как OpenAI, Gemini и Ollama. Особенности данного инструмента: Извлечение на основе искусственного интеллекта: Использует передовые модели искусственного интеллекта для интеллектуального понимания и анализа контента Удобный и минималистичный интерфейс Поддержка нескольких форматов: экспортируйте свои данные в JSON, CSV, HTML, SQL или Excel – в любом удобном для вас формате cyberdeck Скрытый режим: реализованы параметры скрытого режима, которые помогают избежать обнаружения в качестве бота Поддержка Ollama: Используйте огромную библиотеку LLM с открытым исходным кодом Асинхронные операции: молниеносная очистка, которой позавидовала бы бригада травматологов Интеллектуальный синтаксический анализ: структурирует очищенный контент так, как если бы он был извлечен прямо из инграммы главного netrunner Кэширование: Реализовано кэширование на основе контента и запросов с использованием кэша LRU и пользовательского словаря для сокращения избыточных вызовов API Загрузка в Google Таблицы: теперь вы можете легко загружать извлеченные CSV-данные в Google Таблицы одним щелчком мыши Обход капчи: обходите капчу, используя -captcha в конце URL-адреса. (В настоящее время работает только нативно, не работает в Docker) Текущий браузер: функция текущего браузера использует ваш локальный экземпляр браузера, что поможет вам обойти 99% систем обнаружения ботов. (Используйте только при необходимости) Режим ****** (скоро появится): встроенная поддержка ******-серверов, чтобы вы могли скрытно перемещаться по сети Перемещайтесь по страницам (BETA): перемещайтесь по веб-странице и собирайте данные с разных страниц Демо Установка CyberScraper 2077: git clone https://github.com/itsOwen/CyberScraper-2077.git cd CyberScraper-2077 virtualenv venv source venv/bin/activate # Optional pip install -r requirements.txt playwright install Код git clone https://github.com/itsOwen/CyberScraper-2077.git cd CyberScraper-2077 virtualenv venv source venv/bin/activate # Optional pip install -r requirements.txt playwright install Установите ключ OpenAI и Gemini в вашей среде: export OPENAI_API_KEY="ваш_api_ключ" export GOOGLE_API_KEY="ваш_api_ключ" Код export OPENAI_API_KEY="ваш_api_ключ" export GOOGLE_API_KEY="ваш_api_ключ" Установка Docker: Изначально вам необходимо скачать и установить Docker с официального сайта, далее выполнить данные команды: git clone https://github.com/itsOwen/CyberScraper-2077.git cd CyberScraper-2077 docker build -t cyberscraper-2077 . docker run -p 8501:8501 cyberscraper-2077 #Без API ключа docker run -p 8501:8501 -e OPENAI_API_KEY="your-actual-api-key" cyberscraper-2077 #С OpenAI API docker run -p 8501:8501 -e GOOGLE_API_KEY="your-actual-api-key" cyberscraper-2077 #С Gemeni API Код git clone https://github.com/itsOwen/CyberScraper-2077.git cd CyberScraper-2077 docker build -t cyberscraper-2077 . docker run -p 8501:8501 cyberscraper-2077 #Без API ключа docker run -p 8501:8501 -e OPENAI_API_KEY="your-actual-api-key" cyberscraper-2077 #С OpenAI API docker run -p 8501:8501 -e GOOGLE_API_KEY="your-actual-api-key" cyberscraper-2077 #С Gemeni API После чего откройте http://localhost:8501, введите ссылку на сайт и попросите какие именно данные вам необходимо извлечь Использование: streamlit run main.py Код streamlit run main.py После чего откройте http://localhost:8501, введите ссылку на сайт и попросите какие именно данные вам необходимо извлечь Использование CyberScraper 2077 в связке с OLLAMA 1. Установите OLLAMA с помощью: pip install ollama Код pip install ollama 2. Скачайте OLLAMA с официального сайта: https://ollama.com/download 3. Введите: ollama pull llama3.1 Настройка аутентификации Google Sheets Перейдите в облачную консоль Google (https://console.cloud.google.com/ ). Выберите свой проект. Перейдите в раздел "API и сервисы" > "Учетные данные". Найдите ваш существующий идентификатор клиента OAuth 2.0 и удалите его. Нажмите "Создать учетные данные" > "Идентификатор клиента OAuth". Выберите "Веб-приложение" в качестве типа приложения. Назовите свой клиент (например, "Веб-клиент CyberScraper 2077"). В разделе "Авторизованные источники JavaScript" добавьте: http://localhost:8501 http://localhost:8502 http://127.0.0.1:8501 http://127.0.0.1:8502 В разделе "Авторизованные URI перенаправления" добавьте: http://localhost:8501/ http://127.0.0.1:8501/ http://localhost:8502/ http://127.0.0.1:8502/ Нажмите "Создать", чтобы сгенерировать новый идентификатор клиента. Загрузите новый JSON-файл конфигурации клиента и переименуйте его в client_secret.json