Мне поступило задание на работе, создать парсер сайта, но вот у меня возникли проблемы с полученными данными:
1. Ссылки полученные с сайта на карточки товара не работают, приходят адреса отличающиеся от адресов на сайте. Пример ссылки на сайте:
То что сохраняется в csv и отображается в терминале:
Код:
По адресам полученных ссылок пишет "Неправильно набран адрес, или такой страницы на сайте больше не существует."
2. Это кириллица. Вместо понятных русских букв получаю абру-кадабру. Здесь кто-то уже задавал вопрос, там предложили решение:
r.encoding = r.apparent_encoding - сработало, но только в терминале, сохраняя в csv, всё те же не понятные символы. В терминале:
В csv:
3. Это числа.
Пример получаемых данных: '1\xa0030\xa0000\xa0₽'.
Уважаемые, прошу помочь, честно говорю, я много гуглил, но что-то без успешно, заранее благодарю.