Как организовать обработку поля namedtuple при [первом] вызове?

Question

Andrey Dugin @adugin

Python

Как организовать обработку поля namedtuple при [первом] вызове?

Использую namedtuple для обработки полей CSV-файла, читаемого построчно.

Проблема #1: Перед загрузкой записей в namedtuple я очищаю каждую из них от обрамляющих кавычек через strip('"'). Всего в строке 59 полей, но реально в работе используются десятка полтора => проделывается лишняя работа. Нужно организовать "ленивые" вычисления.

Проблему #2: Хотелось бы производить дополнительную обработку поля при [первом?] обращении. Удалить обрамляющие кавычки, строку - кешировать через intern(), число - преобразовать в int(). Поля, которые не используются в процессе работы программы, никак специально обрабатываться не должны, чтобы сэкономить ресурсы.

Пример:

XDR = namedtuple('XDR', 'f_str, f_int')
xdr = XDR(['"answer"', '"42"'])

Ожидаемый результат:

xdr.f_str возвращает intern('answer')
xdr.f_int возвращает число 42, т.е. type(xdr.f_int) is int

Пока копаю тут: pythondoeswhat.blogspot.ru/2011/09/namedtupledict.html

UPD Похоже, нашёл именно то, что надо: https://github.com/brennerm/PyTricks/blob/master/c...

Вопрос задан более трёх лет назад
345 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Andrey Dugin @adugin Автор вопроса, куратор тега Python

Артём, вопрос именно про namedtuple - чтобы можно было писать читабельный код и обращаться к полям по имени. Порядок полей в принципе может измениться. Названия извлекаются из первой строки CSV-файла. Я не использую модуль csv, т.к. формат файла известен, а модуль csv использует регулярные выражения, которые заведомо медленее, чем простой split().

Написано более трёх лет назад
Артём Клименко @aklim007

а чем данный код не устраивает?
в column_map выбираете какие колонки из csv вас интересуют, и как они должны обрабатвваться, добавить чтоб на основании этогоже конфига генерироваллсь имена полей, не проблема, далее просто построчно скармливается строка csv, она сплитится, выбираются на основе конфига нужные колонки, обрабатываются (один раз, как вы и хотели), и всё это сохраняется в namedtuple.

Написано более трёх лет назад
Andrey Dugin @adugin Автор вопроса, куратор тега Python

Артём Клименко: Этот код не универсальный. Мой скрипт принимает на входе множество файлов, которые можно разделить на две разные по содержимому группы (в частности, это трейсы HTTP и TCP-трафика). И, как я уже сказал, колонки могут изменять порядок, а править скрипт каждый раз не представляется возможным.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 17 часов назад
- 85 просмотров
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 90 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 95 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 332 просмотра
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 238 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 666 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 554 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 309 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 569 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 228 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2015-03-15 02:37:55

Пока удалось родить такое кривенькое решение. При каждом обращении атрибут пересчитывается заново. Хорошо бы добавить memoization. Но, по крайней мере, работает:

>>> def namedtuplex(*args, **kwargs):
    def getitem(self, key):
        if type(key) is str:
            value = getattr(self, key)
        else:
            value = tuple.__getitem__(self, key)
        if type(value) is str:
            value = value.strip('"')
            try:
                value = eval(value)
            except:
                value = intern(value)
        return value
    ntuple = collections.namedtuple(*args, **kwargs)
    ntuple.__getitem__ = getitem
    return ntuple

>>> XDR = namedtuplex('XDR', 'a b c d e f g')
>>> xdr = XDR('"abc"', 'def', '5', '"3.14"', 2.71, [1,2], None)
>>> xdr.a
'abc'
>>> xdr.b
'def'
>>> xdr.c
5
>>> xdr.d
3.14
>>> xdr.e
2.71
>>> xdr.f
[1, 2]
>>> xdr.g
>>> xdr['a']
'abc'
>>> xdr['b']
'def'
>>> xdr['c']
5
>>> xdr['d']
3.14
>>> xdr['e']
2.71
>>> xdr['f']
[1, 2]
>>> xdr['g']
>>>

В зависимость от конкретного применения можно сделать что-то такое:
eval(value.strip('"'))
Либо разбирать непосредственно через int() и float() в блоках try..except.

Answer 2 · 2015-03-14 22:36:24

собственно для выборки чтения из файла csv можно использовать модуль csv (там проблемы с юникодом но вполне решаемые)
код ниже расчитан на работу в 2,7, с юникодом, поэтому функция intern не используется, но при желании вполне можно добавить в метод to_str
в целом бы я организовал нечто подобное:

#!/usr/bin/env python
# -*- coding: utf-8
from __future__ import unicode_literals
from collections import namedtuple


def to_int(element):
    """
    Преобразуем строку в число.
    ARGUMENTS:
        :type element: str | unicode
        :rtype: int | long | None
    """
    try:
        # если числа записаны без кавычек
        # return int(element)
        # если при числа всегда обрамлёны кавычками
        return int(element[1:-1])
        # если может быть обрамлён
        # return int(element.strip('"'))
    except ValueError:
        return None


def to_str(element):
    """
    обрезаем кавычки
    ARGUMENTS:
        :type element: str | unicode
        :rtype: str | unicode
    """
    # если при этом всегда обрамлён кавычками
    return element[1:-1]
    # если может быть обрамлён
    # return element.strip('"')


def to_original(element):
    """
    собственно ничего не делаем со строкой
    ARGUMENTS:
        :type element: str | unicode
        :rtype: str | unicode
    """
    return element


# предположим что мы не испольщуем модуль csv
# а сами всё считываем построчно из файла
data = {
    '"1";"2";"test\"0";"test1";"123"',
    '"2";"3";"test1";"test2";"234"',
    '"4";"5";"test2";"test3";"345"',
}
# описываем какие колонки нас интересуют, и функции которые будут использоваться при их обработке
column_map = {
    0: to_int,
    2: to_str,
    4: to_original
}
XDR = namedtuple('XDR', 'num, string, other')
#: :type: list[XDR]
xdrs = list()
for row in data:
    row_splited = row.split(';')
    xdrs.append(XDR(*(func(row_splited[column]) for column, func in column_map.iteritems())))

print xdrs

вывод:

[XDR(num=1, string=u'test"0', other=u'"123"'), XDR(num=2, string=u'test1', other=u'"234"'), XDR(num=4, string=u'test2', other=u'"345"')]

Как организовать обработку поля namedtuple при [первом] вызове?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт