Как получить русский текст (который отображается не по- русски) из html ссылки и вставить в название файла?

Question

Shamil @Fee1in

Python

Как получить русский текст (который отображается не по- русски) из html ссылки и вставить в название файла?

Добрый день!
Писал простенький парсер, и название конечного csv файла брал из html ссылки которая была подана на ввод. Но если с английскими символами файл сохранялся, то с русскоязычными html ссылка пишется в кодировке без русских символов и взять русскоязычное название не получается.

URL = input('Введите URL: ')
URL = URL.strip()
a = str(URL)
#Первая часть забирает регион (город), вторая часть пишет search -, третья часть забирает запрос поиска
a = (((a.split('/')).pop(3)).split('?')).pop(0) + ' search- ' + ((((a.split('/')).pop(-1)).split('=')).pop(-1)).replace('+',' ')
FILE = f'{a}.csv'
save_file(item, FILE)

пример:

https://www.сайт.ru/moscow?q=%D0%BA%D0%BD%D0%B8%D0%B3%D0%B0+%D0%B4%D0%BB%D1%8F+%D1%87%D1%82%D0%B5%D0%BD%D0%B8%D1%8F

вот такого вида ссылка
из этой ссылки я забираю moscow и надо забрать текст после
'https://www.сайт.ru/moscow?q='
и конечный результат должен быть такой:
a='moscow search- книга для чтения'
Я понимаю, что когда получаю название для файла приходится использовать большие "грабли" в виде split(),pop(). Может есть еще проще способ? И как лучше преобразовать кодировку в русскую?

Вопрос задан более трёх лет назад
177 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- 21 дек.
- 101 просмотр
2

ответа
Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- 20 дек.
- 145 просмотров
2

ответа
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 3 подписчика
- 18 дек.
- 205 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 220 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 77 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 200 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 241 просмотр
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 252 просмотра
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 240 просмотров
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

Answer 1 · 2020-05-04 17:10:06

from urllib.parse import unquote
unquote('https://www.сайт.ru/moscow?q=%D0%BA%D0%BD%D0%B8%D0%B3%D0%B0+%D0%B4%D0%BB%D1%8F+%D1%87%D1%82%D0%B5%D0%BD%D0%B8%D1%8F')
'https://www.сайт.ru/moscow?q=книга+для+чтения'

или

from urllib.parse import urlparse, parse_qs
v = parse_qs(urlparse('https://www.сайт.ru/moscow?q=%D0%BA%D0%BD%D0%B8%D0%B3%D0%B0+%D0%B4%D0%BB%D1%8F+%D1%87%D1%82%D0%B5%D0%BD%D0%B8%D1%8F').query)
v['q']
['книга для чтения']

учитесь гуглить, и читайте книги без этого так и будете плодить элементарные вопросы
еще есть удобная либа furl для всей ентой магии, она несколько удобнее стандартной

Answer 2 · 2020-05-05 10:24:08

По совету Влад Григорьев воспользовался furl

from furl import furl
from datetime import datetime
URL='https://www.сайт.ru/город/категория/book-dfgdfge?pmax=100&pmin=10&q=книга+для+чтения'
a = (furl(URL)).asdict()
a=datetime.strftime(datetime.now(), "%Y_%m_%d__%H_%M__") +a['path']['segments'][0] + '_' + a['query']['params'][-1][-1]

в итоге 'a' получим в формате ГГГГ_ММ_ДД__ЧЧ_ММ__город_книга+для+чтения

Как получить русский текст (который отображается не по- русски) из html ссылки и вставить в название файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт