Парсинг эл.книг

solo_rust · 16 дек 2024

Возникла потребность скачивать бесплатно эл.книги с сайта "Яндекс книги" их там дают по подписке но они мне нужны в виде файла .mobi .fb2 и т.п.
Хотел написать парсер на питоне, чет не идет процесс.
На сайте книга разбита по главам и каждая глава в отдельном html файле лежит во вкладке Network в DevTools. Как их от туда выудить? Я вообще не шарю, всё пишу с чатом гпт, он тож не шарит. Я уже написал код который все скачанные html преобразует в один, а потом конвертирует в .mobi, но автоматически качать не получается, только вручную, а там по 100глав в каждой книги

INACTIV_US_125 · 16 дек 2024

Закажи скрипт, а вообще просто отлавливай request На книгу или сам отправляй

lMixFixl · 16 дек 2024

Скрытый контент. Для просмотра Вы должны быть зарегистрированным участником.
Нажмите, чтобы раскрыть...

Aisan · 23 дек 2024

Смотри куда запрос идет и что возвращает и пиши свой парсер

snordon · 6 янв 2025

Как скачать главы книг с сайта "Яндекс книги"

Подготовка: Сначала убедитесь, что вы понимаете, как работает сайт и где находятся ссылки на главы. Используйте инструменты разработчика в браузере, чтобы посмотреть, какие ссылки загружаются для каждой главы.
Получение ссылок на главы:Когда вы откроете страницу книги, посмотрите в разделе "Network" на заруженные запросы. Там вы найдете ссылки на главы, в основном они будут в формате HTML.
Использование Python: Если ссылки на главы уже известны, можете использовать библиотеку requests, чтобы их скачать.Установите нужные библиотеки, если они не установлены: pip install requests beautifulsoup4
import requests
from bs4 import BeautifulSoup

# Введите ссылку на страницу книги
book_url = "URL_ВАШЕЙ_КНИГИ"

def get_chapter_urls(book_url):
response = requests.get(book_url)
soup = BeautifulSoup(response.text, 'html.parser')

# Найдите ссылки на главы
chapter_links = soup.find_all('a', class_='link_to_chapter')

return [link.get('href') for link in chapter_links]

def download_chapter(chapter_url):
response = requests.get(chapter_url)
return response.text

def main():
chapter_urls = get_chapter_urls(book_url)
full_text = ""

for chapter_url in chapter_urls:
chapter_text = download_chapter(chapter_url)
full_text += chapter_text + "\n\n"

# Сохраните текст в файл
with open("book.txt", "w", encoding='utf-8') as f:
f.write(full_text)

if __name__ == "__main__":
main()

Код
import requests

from bs4 import BeautifulSoup



# Введите ссылку на страницу книги

book_url = "URL_ВАШЕЙ_КНИГИ"



def get_chapter_urls(book_url):

    response = requests.get(book_url)

    soup = BeautifulSoup(response.text, 'html.parser')

    

    # Найдите ссылки на главы

    chapter_links = soup.find_all('a', class_='link_to_chapter')

    

    return [link.get('href') for link in chapter_links]



def download_chapter(chapter_url):

    response = requests.get(chapter_url)

    return response.text



def main():

    chapter_urls = get_chapter_urls(book_url)

    full_text = ""

    

    for chapter_url in chapter_urls:

        chapter_text = download_chapter(chapter_url)

        full_text += chapter_text + "\n\n"



    # Сохраните текст в файл

    with open("book.txt", "w", encoding='utf-8') as f:

        f.write(full_text)



if __name__ == "__main__":

    main()

fxweerz · 6 фев 2025

а у тебя получилось по итогу это сделать? Прост я тож пишу парсер с Яндекс Книг сейчас и тож столкнулся с этой проблемой, точнее я не понимаю как мне без подключения силениума реквестить переключение на страницы, дабы спарсить оттуда текст, вроде бы я нашел реквест запрос в том же Network, который перелистывает страницы, но там всё захардкожено и я не осознаю что делать(

[Актуально] Юзер Бот - авто покупка подарков телеграм

Telegram бот который скачивает видео с YouTube

Python разработка android приложений

Авторизация по токену (пиздец)

Бот для обратной связи с админкой | Обход спамблока.

Бот-помощник для скупки рекламы | Сверка статусов/закрепов + аватарок

DICEBOT для форума | AIOGRAM бот с красивым меню

Слив tg бота для загрузки видео из ютуб.

Неподтвержденные заказы - напоминалка для FPC

Скам бизнес бот грабер подарков через тг бизнес

Софт для генерации OctoBrowser и активации промиков

Как правильно компилировать скрипты для максимального сжатия?

Скрипт для игры Spray Paint Roblox

Софт для смены паролей firstmail

Скрипт который знакомится и общается с тянками

Простенький FAKE CHEAT LOADER | Лоадер

Архиватор видео с YouTube | Python

Что он хочет? питон

Какую библиотеку лучше использовать для взаимодействия с 3x-ui

[FREE] Кинобот с обязательной подпиской | Поиск по коду

Какие вообще платежки можно подключить если <18?

Как можно войти в телеграм аккаунт с помощью Auth Key (HEX) и DC ID. Ищу софт

[TG DRAIN] Telegram дрейнер

Как можно через telethon отправить код по смс?

[Дрейнер] NFT | Gift Telegram

Какие щя самые лучшие библиотеки для GUI Python

Как сделать таймер, который не будет замораживать программу?

Уведомления о том, что пользователь онлайн в ВК

Усиление бассов на пайтон BASSSSSSSSSSSSSSS

[BETA] LolzTeam Auto Stars

Парсинг эл.книг