Help me parse the website

tinec4actliv · Dec 6, 2024

Понимаю, что вопрос, возможно глупый. Но я напряг все свои полторы извилины, и даже у новомодных ИИ попросил помочь с созданием алгоритма. Все бестолку.

Моя задача собрать названия школ и адреса их веб-сайтов. По сути я имею дело с веб-страницами двух типов, они могут выглядеть так:
1. Страница со списком городов/районов
2. Страница с адресами школ в указанном городе/районе

То есть адрес до искомой страницы может выглядеть как: Уфа->Дема->*Адреса школ
Или как: Янаул->*Адреса школ. Короче иерархия всегда случайная. Но адреса школ - всегда конечная точка.

На страницах со списком городов/районов/республик я просто ищу все теги *a в теге *div, а на странице с адресами школ ищу теги *a в таблице.

Я не могу понять, как сделать это все рекурсивно без кучи вложенных циклов. Есть у кого идеи?
import requests
from bs4 import BeautifulSoup
import threading

def is_end_point(page):
if page.find("table") == None:
return False
else:
return True

def parse(URL):
page = requests.get(URL).text
bs = BeautifulSoup(page, "lxml")

page = bs.find("div", class_="contents")

queue = []
if is_end_point(page):
for i in page.find_all("a"):
queue.append(i)
print(type(queue[0]))
else:
for i in page.find_all("a"):
pass

if __name__=="__main__":
parse("https://russiaschools.ru/respublika_bashkortostan/birsk/")

Python
import requests

from bs4 import BeautifulSoup

import threading



def is_end_point(page):

    if page.find("table") == None:

        return False

    else:

        return True



def parse(URL):

    page = requests.get(URL).text

    bs = BeautifulSoup(page, "lxml")



    page = bs.find("div", class_="contents")



    queue = []

    if is_end_point(page):

        for i in page.find_all("a"):

            queue.append(i)

        print(type(queue[0]))

    else:

        for i in page.find_all("a"):

            pass

    



if __name__=="__main__":

    parse("https://russiaschools.ru/respublika_bashkortostan/birsk/")

525 · Dec 6, 2024

import requests
from bs4 import BeautifulSoup

def is_end_point(page):
"""Проверка, является ли страница конечной (с адресами школ)."""
return page.find("table") is not None

def parse_page(url):
"""Обработка страницы: рекурсивно обходит ссылки, пока не дойдет до конечных страниц."""
try:
response = requests.get(url)
response.raise_for_status()
except requests.RequestException as e:
print(f"Ошибка при запросе {url}: {e}")
return []

bs = BeautifulSoup(response.text, "lxml")
contents = bs.find("div", class_="contents")

if not contents:
print(f"Контент не найден на странице {url}")
return []

if is_end_point(contents):
# Если страница с адресами школ, извлекаем ссылки
return [(a.text.strip(), a["href"]) for a in contents.find_all("a") if "href" in a.attrs]

# Если страница со списком городов/районов, рекурсивно обходим ссылки
results = []
for a in contents.find_all("a", href=True):
sub_url = a["href"]
if not sub_url.startswith("http"): # Обработка относительных ссылок
sub_url = requests.compat.urljoin(url, sub_url)
results.extend(parse_page(sub_url))

return results

if __name__ == "__main__":
start_url = "https://russiaschools.ru/respublika_bashkortostan/birsk/"
schools = parse_page(start_url)
for name, link in schools:
print(f"{name}: {link}")

Python
import requests

from bs4 import BeautifulSoup



def is_end_point(page):

    """Проверка, является ли страница конечной (с адресами школ)."""

    return page.find("table") is not None



def parse_page(url):

    """Обработка страницы: рекурсивно обходит ссылки, пока не дойдет до конечных страниц."""

    try:

        response = requests.get(url)

        response.raise_for_status()

    except requests.RequestException as e:

        print(f"Ошибка при запросе {url}: {e}")

        return []



    bs = BeautifulSoup(response.text, "lxml")

    contents = bs.find("div", class_="contents")



    if not contents:

        print(f"Контент не найден на странице {url}")

        return []



    if is_end_point(contents):

        # Если страница с адресами школ, извлекаем ссылки

        return [(a.text.strip(), a["href"]) for a in contents.find_all("a") if "href" in a.attrs]



    # Если страница со списком городов/районов, рекурсивно обходим ссылки

    results = []

    for a in contents.find_all("a", href=True):

        sub_url = a["href"]

        if not sub_url.startswith("http"):  # Обработка относительных ссылок

            sub_url = requests.compat.urljoin(url, sub_url)

        results.extend(parse_page(sub_url))



    return results



if __name__ == "__main__":

    start_url = "https://russiaschools.ru/respublika_bashkortostan/birsk/"

    schools = parse_page(start_url)

    for name, link in schools:

        print(f"{name}: {link}")

Parser of games with 100% discounts Steam

Unconfirmed orders - remark for fpc

Autostatus in VK and autobio in Telegram with the current Spotify song

Script for downloading all VK music + with cover + with text MusixMatch or Genius

The simplest eternal online VKontakte

Pyanty - Web automation, module for managing dolphin via Selenium, and Dolphin API

Emunium - module for simulating human behavior in Selenium/Pyppeteer

Gram_tools | Utilities for simplified development of bots on aiogram 3

Cryptoscan - Python Library for Monitoring (Reception) Crypto Payments

Bot for feedback from the admin panel | Bypassing spamblock.

Bot assistant for buying advertising | Checking statuses/pins + avatars

DICEBOT for forum | AIOGRAM bot with a beautiful menu

Telegram bot for drawings

[Actual] User Bot Auto Buying gifts telegrams

Software for generating Octobrowser and acting proys

Software for changing passwords firstmail

Script Bota Speaker at sessions

[TG DRAIN] Telegram drainer

Free | Telegram Parser | Telegrams Parser Username

[BEST] Bot Autosales | Telegram Shop

Telegram bot template

Random VKontakte status

Telegram bot: Gemini retells all voice messages that you receive in DM

Calls via userbot in telegram

What payments can be connected in general if <18?

How can you enter a telegram account using Auth Key (HEX) and DC ID. Looking for software

Autostatus VKontakte with your audio recordings

How to get the average price of gifts in TG?

Judgment Day script - read how much more you will stretch

Telegram channel event notifications (e.g. new/left members)

Help me parse the website