Как починить юникоднутый JSON в питоне?

Question

Александр Мамаев @virtual_universe

Питонист:)

Как починить юникоднутый JSON в питоне?

Если говорить просто то мне необходимо получить информацию, К сожалению я не знаю двигаюсь ли я в правильную сторону. Поэтому вместо того что-бы задавать вопросы как перекодировать это страницу если decode("utf-8) не работают. Лучше я спрошу прямо, как получить данные которые можно парсить с этой страницы.
Интересует решение на питоне, вот что смог сделать я. Заранее спасибо.

# -*- coding: utf-8 -*- ?
import requests
import json

def GetJSON(word):
	url = "https://ru.wiktionary.org//w/api.php?action=query&titles=%s&prop=revisions&rvprop=content&format=json"
	url = url%word
	answ = requests.get(url).text
	data = json.load(answ)
	return data
print(GetJSON("кот"))

PS гиперссылка не работает-почему то, просто скопируйте это

https://ru.wiktionary.org/w/api.php?action=query&titles=%D0%BA%D0%BE%D1%82&prop=revisions&rvprop=content&format=json

Решено!
Решение:

# coding: utf-8
import requests
def WikiSearch(word):
	req = requests.get('https://ru.wiktionary.org/w/api.php?action=query&titles=%s&prop=revisions&rvprop=content&format=json' % word)
	req = req.json()["query"]["pages"]
	
	for key in req: 
		if key == "-1": return None #404 page not found
		req = str(req[key]["revisions"])
	a = req.find("слогам")+6
	req = req[a:a+req[a:].find("}")]
	req = req.replace("\u0301","'")
	req = req.replace("|","")
	return req
print(WikiSearch(input()))

Программа выводит слово с ударением.

Вопрос задан более трёх лет назад
2239 просмотров

5 комментариев

Подписаться 2 Оценить 5 комментариев

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

14 комментариев

Александр Мамаев @virtual_universe Автор вопроса

я видел подобное, но проблема в том что у меня байтовая строке вида "\uxx\uxx"

Написано более трёх лет назад
Александр Мамаев @virtual_universe Автор вопроса

Обновил описание. Гиперссылка не работает. Просто скопируйте. Думаю станет понятно в чем проблема. https://ru.wiktionary.org/w/api.php?action=query&t...

Написано более трёх лет назад
Александр Мамаев @virtual_universe Автор вопроса
Опять гипер ссыка... Вобщем в посте закрепил в виде кода.
https://ru.wiktionary.org/w/api.php?action=query&titles=%D0%BA%D0%BE%D1%82&prop=revisions&rvprop=content&format=json
Написано более трёх лет назад
GavriKos @GavriKos

virtual_universe насколько я помню, это проблема именно вывода словаря в консоль. Например, если вы попытаетесь засейвить это дело в файл - то там все будет в нормальной кодировке. Или если попытаетесь вывести в консоль конкретный элемент json, а не весь - то выведется нормально. pastebin.com/exRJLWiq - вот тут код, который и в файл сдампит в правильной кодировке, и title в консоль на русском выведет.

Написано более трёх лет назад
Александр Мамаев @virtual_universe Автор вопроса

GavriKos: удалось починить первую проблему, она была как раз в чтении. Вместо .content надо писать .text что-бы читалась юникод строка а не байтовая. Теперь как-раз проблема вывода он не может сконвертировать экзотический символ)

Написано более трёх лет назад
GavriKos @GavriKos

virtual_universe вы вообще открывали код который я дал? Все прекрасно выводится.

Написано более трёх лет назад
Александр Мамаев @virtual_universe Автор вопроса

GavriKos: открывал, но к сожалению возможности запустить его нет. Завтра проверю. Спасибо.

Написано более трёх лет назад
sim3x @sim3x

однако
os.path.isfile(filname) is False
return None

Написано более трёх лет назад
GavriKos @GavriKos

sim3x этот код выдран из левого проекта :-) Просто был пример возни с джсоном и кодировками. По ссылке в комментах - слегка скорректированный пример автора, в котором все корректно выводится. Требующий доработки, конечно.

Написано более трёх лет назад
sim3x @sim3x

GavriKos: соболезную

Написано более трёх лет назад
GavriKos @GavriKos

sim3x а можете чуть более развернуто прокомментировать? Как вы бы реализовали?

Написано более трёх лет назад
sim3x @sim3x

GavriKos:

if not os.path.isfile(file_path): return

Написано более трёх лет назад
GavriKos @GavriKos

sim3x ОК, согласен, спасибо за замечание.

Написано более трёх лет назад
sim3x @sim3x

GavriKos: is практически всегда плохая идея
а return возвращает ноне по-умолчанию

Написано более трёх лет назад

10 комментариев

Александр Мамаев @virtual_universe Автор вопроса

Агась, тоже заметил. Но ошибка была не в этом)

Написано более трёх лет назад
Александр Мамаев @virtual_universe Автор вопроса

У меня так - же, только строчек больше)
на стадии загрузки в json выдает ошибку, из-за невозможности конвертировать символ \u04e7

Написано более трёх лет назад
sim3x @sim3x

virtual_universe: у тебя не тоже самое
Внимательнее

Написано более трёх лет назад
Александр Мамаев @virtual_universe Автор вопроса

sim3x: вы на счет .text? Это я уже успел найти в одной из тем тостера. Теперь проблема конвертации экзотического символа - О с двумя точками.

Написано более трёх лет назад
sim3x @sim3x

virtual_universe: пример?

Написано более трёх лет назад
Александр Мамаев @virtual_universe Автор вопроса

sim3x: вот этот символ \u04e7

Написано более трёх лет назад
sim3x @sim3x
virtual_universe:

In [7]: loads('{"q":"\u04e7"}') Out[7]: {'q': 'ӧ'}
Написано более трёх лет назад
Александр Мамаев @virtual_universe Автор вопроса

sim3x: Можете пожалуйста пояснить?

Написано более трёх лет назад
sim3x @sim3x

virtual_universe: что именно?

Написано более трёх лет назад
Александр Мамаев @virtual_universe Автор вопроса

sim3x: Вобщем... проблема решена. Сейчас выложу решение.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- вчера
- 68 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 233 просмотра
0

ответов
Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 969 просмотров
2

ответа
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 618 просмотров
5

ответов
Программирование

+4 ещё

Сложный
Что делать, на QEMU всё летает, а реальный Celeron D умирает?
- 2 подписчика
- 01 июл.
- 709 просмотров
1

ответ
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 228 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 631 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 545 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 305 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 557 просмотров
1

ответ
Показать ещё Загружается…

А что в результате получается? на выходе в контент, кстати параметры в строке желательно кодировать
requests.get(url).encoding тут что?
У меня на другом языке все ок из коробки...
С Sharp: тут байтовая строка. Поменял на .text стало все норм, только декодер не может распознать экзотический символ \u04e7 - буква О с двумя точками
virtual_universe: проблема только в выводе в консоль? у меня - да)3.4 питон В кодировке 866 проблемка

Answer 1 · 2016-06-06 20:32:04

К сожалению примером именно с урлом нет, но есть код загрузки джсона с файла, кодировка UTF-8, и содержимое файла на русском. Вот:

def LoadJson(filname):
    if os.path.isfile(filname) is False:
        return None
    data_file = open(filname, "r")
    str = data_file.read()
    data_file.close()
    data = json.loads(str)
    str = json.dumps(data, ensure_ascii=False, indent=4)
    return json.loads(str)

Думаю последние три строки - это то на что вам нужно обратить внимание. После вот такого шаманства - все работало. Возможно можно как то проще, не разбирал особо.

Answer 2 · 2016-06-06 21:31:02

from json import loads
import requests

w = 'кот'
d = requests.get('https://ru.wiktionary.org/w/api.php?action=query&titles=%s&prop=revisions&rvprop=content&format=json' % w)
print(loads(d.text))

Answer 3 · 2016-06-06 21:35:50

Dimonchik @dimonchik2013

non progredi est regredi

stackoverflow.com/questions/4004431/text-with-unic...

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2020-01-03 23:12:07

Я справился таким образом:

Починка юникоднутого JSON в питоне

import json
import requests

ace_data = requests.get('https://api.aceхххх.хх/хххххххххххххххх_api_key').content.decode('unicode-escape', 'ignore')
ace_json = json.dumps(ace_data)
ace_json_load = json.loads(ace_json)
print(ace_json_load)

Т.е. к:
requests.get('url')
добавляем:
.content.decode('unicode-escape', 'ignore')
и получаем великолепный вывод кирилицы, как и положено!

А если убрать из:

requests.get

ace_data = requests.get('https://api.aceхххх.хх/хххххххххххххххх_api_key').content.decode('unicode-escape', 'ignore')

.content.decode('unicode-escape', 'ignore')
то естесно будет вывод кирилицы в полном г..., типа:
\u04e7
хотя и utf-8

Как починить юникоднутый JSON в питоне?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт