Написал парсер автомобилей, но выдает какие-то не понятные символы, как от них избавиться?

Question

Tyklon @Tyklon

Написал парсер автомобилей, но выдает какие-то не понятные символы, как от них избавиться?

Пробовал метод replace но получил ошибку какую-то

import requests, fake_useragent
from bs4 import BeautifulSoup
import csv
user = fake_useragent.UserAgent().random
headers = {"User-Agent": user}
def get_html(site):
    response = requests.get(site, headers = headers)
    return response.text
def get_content(html):
    soup = BeautifulSoup(html, "lxml")
    items = soup.find_all("a",class_ = "css-yo21t ewrty961")
    cars = []
    for item in items:
        cars.append({
        "Title": item.find("div", class_ = "css-17lk78h e3f4v4l2").text.strip(),
        "Price": item.find("div", class_ = "css-1dv8s3l eyvqki91").text.strip(),
        "About": item.find("div", class_ = "css-1fe6w6s e162wx9x0").text.strip()
        })
        print(cars)

def main():
    url = "https://auto.drom.ru/audi/"
    get_content(get_html(url))
if __name__ == "__main__":
    main()

Вопрос задан более трёх лет назад
139 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- вчера
- 78 просмотров
2

ответа
Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- 20 дек.
- 119 просмотров
2

ответа
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 3 подписчика
- 18 дек.
- 188 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 218 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 75 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 198 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 228 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 247 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 239 просмотров
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

Answer 1 · 2022-05-19 18:27:28

Я так понимаю, надо с записью в CSV-файл?

import csv
import unicodedata
import requests
from anti_useragent import UserAgent
from bs4 import BeautifulSoup

ua = UserAgent()
headers = {'User-Agent': ua.chrome}


def get_html(url):
    response = requests.get(url, headers=headers)
    return response.text


def get_content(html):
    soup = BeautifulSoup(html, 'lxml')
    items = soup.find_all('a', class_='css-yo21t ewrty961')
    cars = []
    for item in items:
        cars.append({
            'Title': item.find('div', class_='css-17lk78h e3f4v4l2').text.strip(),
            'Price': unicodedata.normalize("NFKD", item.find('div', class_='css-1dv8s3l eyvqki91').text.strip()),
            'About': item.find('div', class_='css-1fe6w6s e162wx9x0').text.strip()
        })
    return cars


def content_to_csv(content):
    columns = ['Title', 'Price', 'About']
    result_file = 'autodrom.csv'
    try:
        with open(result_file, 'w', encoding='utf-8', newline='') as csv_file:
            writer = csv.DictWriter(csv_file, fieldnames=columns, dialect='unix')
            writer.writeheader()
            for item in content:
                writer.writerow(item)
    except IOError as err:
        print(f'Error writing the file {result_file}: {err}')


def main():
    url = 'https://auto.drom.ru/audi/'
    content_to_csv(get_content(get_html(url)))


if __name__ == '__main__':
    main()

Answer 2 · 2022-05-19 16:10:22

Значит смотри. Это "неразрывный пробел" №160 (0xa0).
Так вот.
Можешь сделать так: .text.strip().replace(chr(160), " ")
Если тебе нужна форматированная человеко читаемая строка

и в начале import re
и в словаре

int(re.sub(r"[^\d]+", "", item.find("div", class_ = "css-1dv8s3l eyvqki91").text))

если тебе нужно именно int число.

Написал парсер автомобилей, но выдает какие-то не понятные символы, как от них избавиться?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт