Откуда ошибка 404 в парсере python?

Question

valtermild @valtermild

Python

Откуда ошибка 404 в парсере python?

Не могу понять, почему не заходит на урл, из браузера всё работает

import requests
from bs4 import BeautifulSoup
import csv
import re


def get_html(url):
    r = requests.get(url)
    return r.text


urls = ['http://www.autobody.ru/catalog/9468/']

urll = []
for url in urls:
 html = get_html(url)
 soup = BeautifulSoup(html, 'html.parser')
 mydivs = soup.findAll('a', class_="banners_images")
 urls = []

 for i in mydivs:
    ur = (i.get('href'))
    ur = 'http://www.autobody.ru' + str(ur)
    urls.append(ur.encode('utf8'))
 if len(urls)==0:
     mydivs = soup.findAll('div', class_="forward_catalog_new_link_container")
     for i in mydivs:
      ur= i.find('a')['href']
      ur = 'http://www.autobody.ru' + str(ur)
      urls.append(ur.encode('utf8'))
 images = []
 heads = []
 artic = []
 atrib = []
 price = []
 a1=[]
 a2=[]
 a3=[]
 with open('e:\\projects\\1.csv', 'a') as f:        # Open the file in binary mode for Python 2.x
    f.write(u'\ufeff'.encode('utf8')) # writes "byte order mark" UTF-8 signature
    writer = csv.writer(f)

    for i in urls:
        html = get_html(i)
        soup = BeautifulSoup(html, 'html.parser')
        head = soup.find('h1').get_text()
        heads.append(head.encode('utf8'))

        image = [x['src'] for x in soup.findAll('img', {'class': 'detimg'})]
        image1 = 'http://www.autobody.ru'+image[0]
        images.append(image1.encode('utf8'))

        price1 = soup.find('div', class_='price').get_text()
        price1 = re.sub(r"c",r"p", price1)
        price.append(price1.encode('utf8'))

        zo=soup.find('table', class_='tech').find_all('tr')
        artic.append(zo[0].get_text().strip().encode('utf8'))
        atrib.append(zo[1].get_text().strip().encode('utf8'))
        a1.append(zo[2].get_text().strip().encode('utf8'))
        try:
          a2.append(zo[3].get_text().strip().encode('utf8'))
        except:
            a2.append(1)
        writer.writerows(zip(*[heads, price, artic, images,atrib,a1,a2,urls]))

Вопрос задан более трёх лет назад
1346 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

5 комментариев

valtermild @valtermild Автор вопроса

подскажи как в коде реализовать, с пайтоном не очень пока дружу

Написано более трёх лет назад
FeNUMe @FeNUMe

print(url) перед первым вызовом get_html и print(i) перед вторым. Если у вас питон2, то писать так: print url.

Написано более трёх лет назад
valtermild @valtermild Автор вопроса

разобрался, в другом проекте скрипт запускал)

Написано более трёх лет назад
valtermild @valtermild Автор вопроса

теперь пишет write() argument must be str, not bytes, как поправить?

Написано более трёх лет назад
valtermild @valtermild Автор вопроса

вообщем код для питона 2.х а запускаю на 3 и от этого проблемы с кодировкой

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 80 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 92 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 315 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 234 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 658 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 551 просмотр
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 307 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 566 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 228 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 141 просмотр
1

ответ
Показать ещё Загружается…

Answer 1 · 2017-11-02 14:56:41

Перед реквестом в функции get_html оставьте print(url), посмотрите, правильно ли урл передаётся

Answer 2 · 2017-11-02 11:48:06

Добавьте отладочный вывод урлов перед каждым вызовом get_html, увидите где у вас кривые ссылки генерятся.

Answer 3 · 2017-11-02 11:49:29

Stanislav Pugachev @Stqs

senior software developer

думаю проблема в том что запрашиваемые ресурс не найден на сервере

Ответ написан более трёх лет назад

Комментировать

Откуда ошибка 404 в парсере python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт