Задать вопрос

Andrey Dugin

454

вклад
10

вопросов
491

ответ
64%

решений

Ответы пользователя по тегу JSON

Как убрать дубли по key в большом файле?

Andrey Dugin @adugin Куратор тега Python

Вы делаете что-то ужасное. Особенно плох поиск по списку вместо множества. Сделайте так:

from ast import literal_eval as eval  # ast.literal_eval() безопасный, обычный eval() - нет

with open('input.txt', 'r') as fi, open('output.txt', 'w') as fo:
    cache = set()
    for line in fi:
        title = eval(line).get('title')
        if title not in cache:
            cache.add(title)
            fo.write(line)

Можно оригинально реализовать кэширование декоратором:

from ast import literal_eval as eval
from functools import lru_cache

@lru_cache(None)
def process(title):
    print(record, file=fo)

with open('input.txt', 'r') as fi, open('output.txt', 'w') as fo:
    for record in map(eval, fi):
        process(record['title'])

Ну и глянуть статистику кэша заодно:

>>> process.cache_info()
CacheInfo(hits=994960, misses=5040, maxsize=None, currsize=5040)

Ответ написан более трёх лет назад

36 комментариев

Можно ли заменить полноценную БД на файлики json?

Andrey Dugin @adugin

Чем обоснован выбор именно JSON? Почему не SQLite, например?

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как в питоне частично записать JSON в CSV?

Andrey Dugin @adugin Куратор тега Python

Практический пример. Пардон, что картинкой - копировать неудобно:

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как установить правильную кодировку для ответа с сервера в Python 3?
Andrey Dugin @adugin Куратор тега Python
В Python 2.7 работает и так, и так :)
>>> data = urlopen('http://devcave.ru/json.php').read() >>> data.decode('utf-8') u'{"key":"\\u0440\\u0443\\u0441\\u0441\\u043a\\u0438\\u0439 \\u044f\\u0437\\u044b\\u043a"}' >>> data.decode('cp1251') u'{"key":"\\u0440\\u0443\\u0441\\u0441\\u043a\\u0438\\u0439 \\u044f\\u0437\\u044b\\u043a"}'

Ответ написан более трёх лет назад

6 комментариев
6 комментариев

Как распарсить строку с не совсем корректным json'ом?

Andrey Dugin @adugin Куратор тега Python

def tokenize(data):
    cleanup = lambda entry: entry.replace(':', '').strip()
    for entry in data.strip(';').split(';'):
        entry = map(cleanup, entry.rsplit(':',1))
        if len(entry) == 1:
            entry.append(True)
        yield entry

input = 'name1: value1; name2: value2; name3; prefix: name4: value4;'
print dict(tokenize(input))

Результат:

{'prefix name4': 'value4', 'name2': 'value2', 'name3': True, 'name1': 'value1'}

Ещё можно вот в таком направлении поиграться:

>>> dict(re.findall('\s*([\w\s:]+?)\s*(?::\s*([\w\s]*)\s*)?(?=[;$])', input))
{'prefix: name4': 'value4', 'name2': 'value2', 'name3': '', 'name1': 'value1'}

Ответ написан более трёх лет назад

3 комментария

Самые активные сегодня

Drno
- 5 ответов
- 0 вопросов
Qugurun
- 2 ответа
- 0 вопросов
perezagruzi_kod1
- 2 ответа
- 0 вопросов
VoidVolker
- 2 ответа
- 0 вопросов
haps
- 1 ответ
- 1 вопрос
Талян
- 1 ответ
- 0 вопросов

Как убрать дубли по key в большом файле?

Можно ли заменить полноценную БД на файлики json?

Как в питоне частично записать JSON в CSV?

Как установить правильную кодировку для ответа с сервера в Python 3?

Как распарсить строку с не совсем корректным json'ом?

Войдите на сайт