Почему в парсер не приходят данные?

Question

David5 @David5

Почему в парсер не приходят данные?

Написал небольшой парсер, по второй ссылке приходят данные, а по первой массив пустой, статус 200, а данных нет, может это связанно с русским доменом, хотя я через сервис декодировал в англ.

checklist = {
    'лип' : ['https://xn--80aacoonefzg3am8b1fsb.xn--p1ai/news', '//*[@id="news__area-blocks"]/a[1]/div/div[3]/text()', '//*[@id="news__area-blocks"]/a[1]/@href', 'https://xn--80aacoonefzg3am8b1fsb.xn--p1ai/news'],
    'следственный комитет' : ['https://lipetsk.sledcom.ru', '//*[@id="news_tab-1"]/div[1]/div[1]/div[2]/div[3]/a/text()', '//*[@id="news_tab-1"]/div[1]/div[1]/div[2]/div[3]/a/@href', 'https://lipetsk.sledcom.ru']
}



def get_titles(checklist):
     

  for site in checklist.items():
 
    user_agent = ('Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:50.0) '
              'Gecko/20100101 Firefox/50.0')

    html_text = requests.get(site[1][0], headers={'User-Agent':user_agent}).text

    tree = lxml.html.document_fromstring(html_text)

    text_titles = tree.xpath(site[1][1])
    text_link = tree.xpath(site[1][2])
        

 

    yield text_titles, text_link


 



for i in get_titles(checklist):
    print(i)

Почему в парсер не приходят данные?

Вопрос задан более трёх лет назад
178 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

5 комментариев

David5 @David5 Автор вопроса

да, информации там нет, не подскажете какими другими инструментами? Спасибо)

Написано более трёх лет назад
David5 @David5 Автор вопроса

я так понял айякс запросами можно получить

Написано более трёх лет назад
nullnull @nullnull

David5, я думала в сторону selenium. По крайней мере в нём JS точно все отрабатывают, штука здоровая та ещё. Возможно есть что-то проще для парсинга, но я только этот знаю.

Написано более трёх лет назад
David5 @David5 Автор вопроса

хорошо, спасибо вам, открыли глаза))

Написано более трёх лет назад
David5 @David5 Автор вопроса

nullnull, через селениум все ок

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 193 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 493 просмотра
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 475 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 274 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 486 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 208 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 328 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 657 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 342 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2021-03-26 09:35:24

Есть вариант, что первый просто загружает данные через JS или что там нынче модно, и вы просто не можете в таких парсерах получать данные. Или он вам присылает страницу для robot, хоть и есть Юзер-агент.

Поставьте точку остановки на строке "tree = lxml.html.document_fromstring(html_text)" и запустите через дебаг.
Посмотрите, как выглядит страница html_text, всё ли с ней нормально?
Потом посмотрите в браузере "исходный код страницы", есть ли там то, что вы ищите.

Если всё это есть, то ошибка у вас в коде или в xPath запросе. А если этого нет в html_text, то и получить это нельзя таким способом :) Придётся менять подход или инструменты для парсинга.

Почему в парсер не приходят данные?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт