Где ошибка в парсере?

Question

NoAlazar @NoAlazar

Beautiful Soup

Где ошибка в парсере?

Делал парсер по тутору с Хабра, и что то не работает. В файл Json сохраняет только "{}". Почему?

Вот сам код:

from bs4 import BeautifulSoup
import random
import json
import requests
import datetime
from fake_useragent import UserAgent

ua = UserAgent()

headers = {
    'accept': 'application/json, text/plain, */*',
    'user-Agent': ua.google,
}

article_dict = {}

for i in range(1, 4): 
    url = f'https://habr.com/ru/top/daily/page{i}/' 
    
    req = requests.get(url, headers=headers).text 

    soup = BeautifulSoup(req, 'lxml') 
    all_hrefs_articles = soup.find_all('a', class_='tm-article-snippet__title-link') 
    
    for article in all_hrefs_articles:
        article_name = article.find('span').text 
        article_link = f'https://habr.com{article.get("href")}'
        article_dict[article_name] = article_link 

with open(f"articles_{datetime.datetime.now().strftime('%d_%m_%Y')}.json", "w", encoding='utf-8') as f: 
    try:
        json.dump(article_dict, f, indent=4, ensure_ascii=False)
        print('Статьи были успешно получены')

    except:
        print('Статьи не удалось получить')

Вопрос задан более двух лет назад
74 просмотра

9 комментариев

Подписаться 1 Средний 9 комментариев

сергей кузьмин @sergueik
напечатайте что в article_dict
испльзвуя например pprint
может вы не сумели с bs отпарзить страницу

https://habr.com/ru/articles/top/daily/page2/ $("a.tm-article-snippet__title-link") null
Написано более двух лет назад
Алан Гибизов @phaggi

Код из-за комментов, которые вы скопипастили, плохо читаем. Кроме того, лучше разделить код на функции и отлаживать их по-отдельности. Пусть одна готовит конфиги, другая скрапит данные с сайта, третья их парсит, четвертая пишет в файл, и т.п.
Ну и пользуйтесь дебаггером.

А в этой лапше как предлагаете разбираться? Мысленно интерпретировать код и следить за кучей переменных и дебажить мысленно? И мысленно скачивать данные и смотреть, что там скачалось?

Написано более двух лет назад
NoAlazar @NoAlazar Автор вопроса

сергей кузьмин, хм, теперь вывело текст с article_dict, и потом вывело Статьи не удалось получить...
Тэкс, теперь бы понять где ошибка...

Написано более двух лет назад
NoAlazar @NoAlazar Автор вопроса

Алан Гибизов, Не, ну я не настолько хорошо все умею, для меня разделение кода пока сложно. (прошу прощения за коментарии в коде, сейчас приберу)

Написано более двух лет назад
Алан Гибизов @phaggi

NoAlazar, да не, это я не призываю прибирать, просто обращаю внимание. Комменты вообще стоит ставить только там, где они явно нужны; грубо говоря, не надо на строку а += 1 ставить коммент "увеличиваем а на один"

Написано более двух лет назад
NoAlazar @NoAlazar Автор вопроса

Алан Гибизов, я их ставлю для себя всегда, по привычке, что бы там где скопипастил сам мог разобраться что к чему

Написано более двух лет назад
сергей кузьмин @sergueik

путь поправьте NoAlazar,
напр. $("a.tm-title__link")

Написано более двух лет назад
NoAlazar @NoAlazar Автор вопроса
сергей кузьмин, вот так?

all_hrefs_articles = soup.find_all("a.tm-article-snippet__title-link")
Написано более двух лет назад
сергей кузьмин @sergueik

NoAlazar, нет css selector который я попробовал в хроме буквально копировать не надо - как надо почитайте документацию

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
Нетология

1С-программист

10 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Beautiful Soup

Простой
Почему Soup.find возвращает None?
- 1 подписчик
- 03 авг.
- 82 просмотра
1

ответ
Python

+2 ещё

Простой
Как сделать, чтобы при парсинге bs4 как то надо нажать на кнопку «показать еще», чтобы подгрузило еще 20 постов?
- 1 подписчик
- 08 апр.
- 238 просмотров
2

ответа
Парсинг

+1 ещё

Простой
У меня не получается спарсить ссылку на фото с сайта, help?
- 1 подписчик
- 07 апр.
- 218 просмотров
2

ответа
Beautiful Soup

Средний
Как распарсить файл в табличной верстке через beatifulsoap?
- 1 подписчик
- 07 мар.
- 138 просмотров
1

ответ
Beautiful Soup

Простой
Нормально ли что парсинг занимает много оперативки?
- 2 подписчика
- 17 нояб. 2024
- 254 просмотра
2

ответа
Beautiful Soup

+1 ещё

Простой
Как пройти капчу при методе POST?
- 1 подписчик
- 10 нояб. 2024
- 251 просмотр
1

ответ
Beautiful Soup

Простой
Почему скачиваются миниатюры изображений вместо их полного размера?
- 1 подписчик
- 01 нояб. 2024
- 183 просмотра
0

ответов
Beautiful Soup

Простой
Почему парсер не выдаёт нужный результат?
- 1 подписчик
- более года назад
- 128 просмотров
1

ответ
Beautiful Soup

Простой
Python BeautifulSoup почему не работает код?
- 1 подписчик
- более года назад
- 81 просмотр
0

ответов
Beautiful Soup

Простой
Парсится только часть страницы. Как парсить всю страницу?
- 1 подписчик
- более года назад
- 81 просмотр
2

ответа
Показать ещё Загружается…

Руководитель проектов по цифровому развитию клиентов в сфере недвижимости (CSM)

Сбер • Санкт-Петербург

от 200 000 ₽

Java Developer (Клик)

Сбер • Москва

от 400 000 ₽

Системный аналитик (Мои Сервисы)

Сбер • Москва

от 300 000 ₽

напечатайте что в article_dict
испльзвуя например pprint
может вы не сумели с bs отпарзить страницу

https://habr.com/ru/articles/top/daily/page2/ $("a.tm-article-snippet__title-link") null
Код из-за комментов, которые вы скопипастили, плохо читаем. Кроме того, лучше разделить код на функции и отлаживать их по-отдельности. Пусть одна готовит конфиги, другая скрапит данные с сайта, третья их парсит, четвертая пишет в файл, и т.п.
Ну и пользуйтесь дебаггером.

А в этой лапше как предлагаете разбираться? Мысленно интерпретировать код и следить за кучей переменных и дебажить мысленно? И мысленно скачивать данные и смотреть, что там скачалось?
сергей кузьмин, хм, теперь вывело текст с article_dict, и потом вывело Статьи не удалось получить...
Тэкс, теперь бы понять где ошибка...
Алан Гибизов, Не, ну я не настолько хорошо все умею, для меня разделение кода пока сложно. (прошу прощения за коментарии в коде, сейчас приберу)
NoAlazar, да не, это я не призываю прибирать, просто обращаю внимание. Комменты вообще стоит ставить только там, где они явно нужны; грубо говоря, не надо на строку а += 1 ставить коммент "увеличиваем а на один"
Алан Гибизов, я их ставлю для себя всегда, по привычке, что бы там где скопипастил сам мог разобраться что к чему
путь поправьте NoAlazar,
напр. $("a.tm-title__link")
сергей кузьмин, вот так?

all_hrefs_articles = soup.find_all("a.tm-article-snippet__title-link")
NoAlazar, нет css selector который я попробовал в хроме буквально копировать не надо - как надо почитайте документацию

Answer 1 · 2023-09-11 00:41:15

from bs4 import BeautifulSoup
import random
import json
import requests
import datetime
from fake_useragent import UserAgent

ua = UserAgent()

headers = {
    'accept': 'application/json, text/plain, */*',
    'user-Agent': ua.google,
}

article_dict = {}

for i in range(1, 4): 
    url = f'https://habr.com/ru/top/daily/page{i}/' 
    
    req = requests.get(url, headers=headers).text
    soup = BeautifulSoup(req, "html.parser") 
    all_hrefs_articles = soup.find_all("a", class_='tm-title__link')
    #print(all_hrefs_articles)
    for article in all_hrefs_articles:
        article_name = article.find('span').text 
        article_link = f'https://habr.com{article.get("href")}'
        article_dict[article_name] = article_link 

with open(f"articles_{datetime.datetime.now().strftime('%d_%m_%Y')}.json", "w", encoding='utf-8') as f: 
    try:
        json.dump(article_dict, f, indent=4, ensure_ascii=False)
        print('Статьи были успешно получены')

    except:
        print('Статьи не удалось получить')

Надеюсь помог ;)

Где ошибка в парсере?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт