Ответы пользователя Roman K по тегу «Python» — Хабр Q&A

Задать вопрос

Ответы пользователя по тегу Python

Почему возникает ошибка при обновлении pip?

Roman K @deliro

Это значит, что у тебя установлен пакет sanetime такой версии, который требует такую версию python-dateutil, которая не входит в промежуток требуемых версий pip.

Сначала выполни

pip install -U sanetime

А потом обновляй pip

Ответ написан более трёх лет назад

Комментировать

Комментировать

Можно ли так описать хэш-таблицу?

Roman K @deliro

1. ХТ пуста от 2/3 своего размера до 1/3. 1/3 - это уже она вот-вот реаллоцируется.
2. Про циклы - фигня. В питоне нет ни одного способа добавить элементы кучей так, чтобы на самом деле они добавились не в цикле на уровне Си. Даже dict comprehensions добавляют элементы последовательно.
3. Хэш от ключа - это встроенная функция hash(). Для конкретной ХТ берется остаток от деления хэша на размер ХТ. На самом деле, берётся хэш по битовой маске (размер_ХТ - 1) [Например hash(obj) & 2**16 - 1]. Но для степеней двойки эти операции равноценны.
4. Ты совсем забыл момент с разрешением коллизий (это когда хэши двух разных ключей совпадают). В питоновых словарях это самый интересный момент. И именно из-за него удаленные данные из словаря не удаляются физически до следующей реаллокации.
5. "Очень быстро" - это как?

UPD.

На текущий момент реализация словаря в питоне поменялась. В 3.6 версии сделали все словари по умолчанию ordered и заодно уменьшили размер словаря в байтах на 20-25%. Вот реализация актуальных словарей на питоне (в оригинале, она, конечно на Си):

Раскрыть

import array
import collections
import itertools

# Placeholder constants
FREE = -1
DUMMY = -2


class Dict(collections.MutableMapping):
    "Space efficient dictionary with fast iteration and cheap resizes."

    @staticmethod
    def _gen_probes(hashvalue, mask):
        "Same sequence of probes used in the current dictionary design"
        PERTURB_SHIFT = 5
        if hashvalue < 0:
            hashvalue = -hashvalue
        i = hashvalue & mask
        yield i
        perturb = hashvalue
        while True:
            i = (5 * i + perturb + 1) & 0xFFFFFFFFFFFFFFFF
            yield i & mask
            perturb >>= PERTURB_SHIFT

    def _lookup(self, key, hashvalue):
        "Same lookup logic as currently used in real dicts"
        assert self.filled < len(self.indices)  # At least one open slot
        freeslot = None
        for i in self._gen_probes(hashvalue, len(self.indices) - 1):
            index = self.indices[i]
            if index == FREE:
                return (FREE, i) if freeslot is None else (DUMMY, freeslot)
            elif index == DUMMY:
                if freeslot is None:
                    freeslot = i
            elif (
                self.keylist[index] is key
                or self.hashlist[index] == hashvalue
                and self.keylist[index] == key
            ):
                return (index, i)

    @staticmethod
    def _make_index(n):
        "New sequence of indices using the smallest possible datatype"
        if n <= 2 ** 7:
            return array.array("b", [FREE]) * n  # signed char
        if n <= 2 ** 15:
            return array.array("h", [FREE]) * n  # signed short
        if n <= 2 ** 31:
            return array.array("l", [FREE]) * n  # signed long
        return [FREE] * n  # python integers

    def _resize(self, n):
        """Reindex the existing hash/key/value entries.
           Entries do not get moved, they only get new indices.
           No calls are made to hash() or __eq__().

        """
        n = 2 ** n.bit_length()  # round-up to power-of-two
        self.indices = self._make_index(n)
        for index, hashvalue in enumerate(self.hashlist):
            for i in Dict._gen_probes(hashvalue, n - 1):
                if self.indices[i] == FREE:
                    break
            self.indices[i] = index
        self.filled = self.used

    def clear(self):
        self.indices = self._make_index(8)
        self.hashlist = []
        self.keylist = []
        self.valuelist = []
        self.used = 0
        self.filled = 0  # used + dummies

    def __getitem__(self, key):
        hashvalue = hash(key)
        index, i = self._lookup(key, hashvalue)
        if index < 0:
            raise KeyError(key)
        return self.valuelist[index]

    def __setitem__(self, key, value):
        hashvalue = hash(key)
        index, i = self._lookup(key, hashvalue)
        if index < 0:
            self.indices[i] = self.used
            self.hashlist.append(hashvalue)
            self.keylist.append(key)
            self.valuelist.append(value)
            self.used += 1
            if index == FREE:
                self.filled += 1
                if self.filled * 3 > len(self.indices) * 2:
                    self._resize(4 * len(self))
        else:
            self.valuelist[index] = value

    def __delitem__(self, key):
        hashvalue = hash(key)
        index, i = self._lookup(key, hashvalue)
        if index < 0:
            raise KeyError(key)
        self.indices[i] = DUMMY
        self.used -= 1
        # If needed, swap with the lastmost entry to avoid leaving a "hole"
        if index != self.used:
            lasthash = self.hashlist[-1]
            lastkey = self.keylist[-1]
            lastvalue = self.valuelist[-1]
            lastindex, j = self._lookup(lastkey, lasthash)
            assert lastindex >= 0 and i != j
            self.indices[j] = index
            self.hashlist[index] = lasthash
            self.keylist[index] = lastkey
            self.valuelist[index] = lastvalue
        # Remove the lastmost entry
        self.hashlist.pop()
        self.keylist.pop()
        self.valuelist.pop()

    def __init__(self, *args, **kwds):
        if not hasattr(self, "keylist"):
            self.clear()
        self.update(*args, **kwds)

    def __len__(self):
        return self.used

    def __iter__(self):
        return iter(self.keylist)

    def iterkeys(self):
        return iter(self.keylist)

    def keys(self):
        return list(self.keylist)

    def itervalues(self):
        return iter(self.valuelist)

    def values(self):
        return list(self.valuelist)

    def iteritems(self):
        return itertools.izip(self.keylist, self.valuelist)

    def items(self):
        return zip(self.keylist, self.valuelist)

    def __contains__(self, key):
        index, i = self._lookup(key, hash(key))
        return index >= 0

    def get(self, key, default=None):
        index, i = self._lookup(key, hash(key))
        return self.valuelist[index] if index >= 0 else default

    def popitem(self):
        if not self.keylist:
            raise KeyError("popitem(): dictionary is empty")
        key = self.keylist[-1]
        value = self.valuelist[-1]
        del self[key]
        return key, value

    def __repr__(self):
        return "Dict(%r)" % self.items()

    def show_structure(self):
        "Diagnostic method.  Not part of the API."
        print("=" * 50)
        print(self)
        print("Indices:", self.indices)
        for i, row in enumerate(zip(self.hashlist, self.keylist, self.valuelist)):
            print(i, row)
        print("-" * 50)


if __name__ == "__main__":
    d = Dict([("timmy", "red"), ("barry", "green"), ("guido", "blue")])
    d.show_structure()

Описание (возможно, понадобится VPN из-за выходок РКН)

Ответ написан более трёх лет назад

2 комментария

2 комментария

Как ограничить ввод до 10.000?

Roman K @deliro

n = min(int(input()), 10_000)

Ответ написан более трёх лет назад

2 комментария

2 комментария
Как происходит удаление из множества?

Roman K @deliro

Множество — это почти тот же словарь. Там та же самая хэш-таблица. Только значений нет, есть только ключи. Соответственно, алгоритм поиска тот же — вычисляем хэш элемента, по нему определяем индекс в хэш-таблице за константное время и помечаем элемент как удалённый.

Ответ написан более трёх лет назад

Комментировать

Комментировать

Как правильно распрасить json?

Roman K @deliro

Это не JSON. В JSON кавычки двойные

In [6]: x = '[{"tzid": "000000000", "phone": "000000", "service": "test", "statu
   ...: s": "TZ_NUM_PREPARE"}]'

In [7]: x
Out[7]: '[{"tzid": "000000000", "phone": "000000", "service": "test", "status": "TZ_NUM_PREPARE"}]'

In [8]: json.loads(x)
Out[8]: 
[{'tzid': '000000000',
  'phone': '000000',
  'service': 'test',
  'status': 'TZ_NUM_PREPARE'}]

Ответ написан более трёх лет назад

1 комментарий

1 комментарий

Как в Python3 использовать вложенный список в multiprocessing?

Roman K @deliro

Не надо так низкоуровнево писать (обычно).

from concurrent.futures import ProcessPoolExecutor


D = {'x': [1, 2, 3], 'y': [4, 5, 6], 'z': [7, 8, 9]}


def process(arg):
    key, values = arg
    return key, [v * 10 for v in values]


if __name__ == "__main__":
    with ProcessPoolExecutor() as executor:
        result = executor.map(process, D.items())

    print(dict(result))

Чтобы убедиться, что оно действительно работает и не блокирует друг друга:

from concurrent.futures import ProcessPoolExecutor
from time import sleep


D = {'x': [1, 2, 3], 'y': [4, 5, 6], 'z': [7, 8, 9]}


def process(arg):
    key, values = arg
    print("executing", key, values)
    sleep(1)
    return key, [v * 10 for v in values]


if __name__ == "__main__":
    with ProcessPoolExecutor(2) as executor:
        result = executor.map(process, D.items())

    print(dict(result))

Ответ написан более трёх лет назад

7 комментариев

7 комментариев

Как происходит создание словаря?
Roman K @deliro
Нет.

1. Создаётся в Си структура словаря
2. Создаётся хэш-таблица на 8 элементов (это до 6 ключ-значений словаря)
3. Поочерёдно добавляются (на уровне Си) элементы

Когда ты вставляешь 7-ой элемент в словарь, хэш-таблица увеличивается в 2 раза — до 16 ячеек (это до 11 ключ-значений), все существующие в старой хэш-таблице элементы (кроме удалённых [да, удаление значения из словаря не удаляет его на самом деле до следующей реаллокации]) переезжают по одному в новую, при этом заново вычисляются хэши всех этих элементов (потому что старые хэши работали только со старым размером хэш-таблицы).

И так до бесконечности. Как только количество элементов в словаре превышает load factor хэш-таблицы (который равен 2/3) — происходит создание новой хэш-таблицы. Но не раньше.

Вот этот код, возможно, поможет тебе понять, как это работает:
import sys def fs(s): if s >= 2 ** 20: return f"{s/(2**20):.2f}МБ" if s >= 2 ** 10: return f"{s/(2**10):.2f}КБ" return f"{s}Б" def g(): n = int((2**16) * (2/3)) d = dict.fromkeys(range(n)) print("Размер словаря:", fs(sys.getsizeof(d)), "Элементов:", len(d)) for i in range(n): del d[i] print("Размер словаря всё ещё", fs(sys.getsizeof(d)), "хотя он пуст. Элементов:", len(d)) # В уже пустой словарь весом 1.25мб вставляем всего лишь один элемент d["hello"] = "world" newsize = sys.getsizeof(d) print("Хэш-таблица превысила load factor (2/3), реаллокация. Новый размер:", fs(newsize), "Элементов:", len(d)) g()

Ответ написан более трёх лет назад

Комментировать
Комментировать
Как создать новый проект в pycharm?

Roman K @deliro

Это правильно, что он не видит компилятор. Ведь у питона интерпретатор.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Почему Python установился в \Appdata\Locals\Programs\ и как его безболезненно переместить?

Roman K @deliro

1. Потому что в папку юзера можно устанавливать без админских прав
2. Нет
3. Не стоит

Ответ написан более трёх лет назад

2 комментария

2 комментария
Как сделать цветной текст Python?

Roman K @deliro

Консоль у тебя кривая

Ответ написан более трёх лет назад

2 комментария

2 комментария
Как подсчитать повторяющиеся символы в Python?
Roman K @deliro
import collections with open('symbols.txt', 'r') as f: data = f.read() counter = collections.Counter(data) print(counter.most_common(None))

Если файл настолько большой, что не влезает в ОЗУ, у Counter есть метод update, в который можно кусками вкидывать символы

Ответ написан более трёх лет назад

1 комментарий
1 комментарий
Как получить и вывести данные из JSON в Python?

Roman K @deliro

Разберись с итераторами в питоне

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как работают разделяемые ссылки в классах?

Roman K @deliro

Ты не читал документацию, верно? append добавил в список тройку, которую шарят все инстансы класса, но append возвращает ничего. И это ничего ты и присваиваешь

Ответ написан более трёх лет назад

Комментировать

Комментировать

Как можно связать классы чтоб подобная конструкция работать?

Roman K @deliro

class Book:
    def __init__(self, name):
        self.name = name

    def __repr__(self):
        return f"<Book: {self.name}>"

    def __eq__(self, other):
        if not isinstance(other, type(self)):
            return False
        return self.name == other.name


class Lib:
    def __init__(self, books=None):
        if books is None:
            self.books = []
        else:
            self.books = books[:]

    def __iadd__(self, other):
        if not isinstance(other, Book):
            raise TypeError("Not a book")
        self.books.append(other)
        return self

    def __iter__(self):
        return iter(self.books)


lib = Lib()
book1 = Book("Fluent Python")
book2 = Book("Mein Kampf")

lib += book1
lib += book2

for book in lib:
    print(book)

Однако, лучше не злоупотреблять оверрайдингом операторов неявной логикой и сделать явный метод .add_book() и явный метод .iterate_books()

Ответ написан более трёх лет назад

Комментировать

Комментировать

Как устроена сортировка в Python?
Roman K @deliro
Сортировка строк основана на поэлементном сравнении позиций символов в таблице кодировки. Надеюсь, этот пример тебе поможет понять:

In [1]: x = ['a', 'aaa', 'A', 'AA', 'AAA', 'AaA'] In [2]: sorted(x) Out[2]: ['A', 'AA', 'AAA', 'AaA', 'a', 'aaa'] In [3]: [[ord(i) for i in el] for el in sorted(x)] Out[3]: [[65], [65, 65], [65, 65, 65], [65, 97, 65], [97], [97, 97, 97]]

Ответ написан более трёх лет назад

2 комментария
2 комментария

Какова вероятность получить идентичные последовательности?

Roman K @deliro

get_seq2 не делает ничего полезного, если тебе не нужны какие-то промежуточные результаты. Распределения get_seq1 и get_seq2 совпадают. Только get_seq2 работает в 7 раз медленней.

Очевидно, раз распределения совпадают, то вероятность получить одинаковую последовательность такая же, как вероятность получить её внутри одной функции — P(get_seq1() == get_seq1()) == P(get_seq1() == get_seq2()) == 1 / N * 1 / N-1 * ... * 1/1, где N - длина последовательности

Распределение очень просто измерить:

def measure(fn):
    n = 10
    p = []
    for _ in range(10):
        p.append([0] * n)
        
    for _ in range(10**6):
        seq = fn(n)
        for i, el in enumerate(seq):
            p[el][i] += 1
            
    return p

И получаем матрицы, которые показывают, как часто элемент (строка) встречается на определённом индексе (столбец). При устремлении n к бесконечности, они уравняются и в том, и в другом случае. Значит, распределение у них равное и выбрасывай функцию №2

>>> measure(get_seq1)
[[99919, 100094, 99918, 100106, 100275, 100068, 100154, 99995, 100254, 99217],
 [99766, 100119, 100263, 99692, 99904, 99946, 100378, 99573, 100052, 100307],
 [100470, 100170, 99583, 100699, 99723, 99924, 99743, 100296, 99856, 99536],
 [100373, 100060, 99779, 99566, 99761, 99850, 100135, 100109, 100081, 100286],
 [100187, 99933, 99528, 100120, 99986, 99897, 99798, 100082, 100220, 100249],
 [100357, 99866, 99828, 99928, 100218, 100322, 100546, 99774, 99675, 99486],
 [99533, 99710, 100332, 99507, 100526, 100117, 99435, 100356, 100378, 100106],
 [99571, 100246, 99968, 100280, 100162, 99406, 99907, 100185, 99752, 100523],
 [99913, 99821, 100573, 99876, 99931, 100207, 99895, 99962, 100054, 99768],
 [99911, 99981, 100228, 100226, 99514, 100263, 100009, 99668, 99678, 100522]]

>>> measure(get_seq2)
[[99740, 100055, 99943, 99346, 99970, 100129, 100306, 99887, 100170, 100454],
 [100324, 100029, 99635, 100189, 99822, 100019, 99970, 100613, 99778, 99621],
 [99487, 100227, 100431, 99973, 99767, 99982, 100256, 100325, 99777, 99775],
 [99974, 99739, 100295, 100221, 99926, 100097, 99134, 100275, 99841, 100498],
 [100091, 99770, 99578, 99967, 100364, 100097, 99820, 99565, 100747, 100001],
 [99874, 99914, 100011, 99799, 99947, 99854, 100629, 99938, 100135, 99899],
 [100143, 100200, 99946, 100157, 99754, 99598, 100223, 99860, 99747, 100372],
 [100095, 100058, 100037, 100209, 100549, 100335, 99759, 99231, 100087, 99640],
 [100117, 99971, 99967, 100017, 99682, 99696, 100147, 100634, 99514, 100255],
 [100155, 100037, 100157, 100122, 100219, 100193, 99756, 99672, 100204, 99485]]

Ответ написан более трёх лет назад

Комментировать

Комментировать

Как найти частичное совпадение строк?

Roman K @deliro

pip3 install fuzzywuzzy[speedup]

from fuzzywuzzy import fuzz

x = "0 .. трубок использовали для прожигания стальковша.Замена воронки 18м 8сл. Разлита полностью."
y = "трубок использооали для прожигания"

fuzz.partial_ratio(x, y)

https://github.com/seatgeek/fuzzywuzzy

Ответ написан более трёх лет назад

8 комментариев

8 комментариев

Как в Python избежать ошибки TabError?

Roman K @deliro

1. Читать ошибку, в первую очередь.
2. Поставить редактор, который умеет показывать разными символами табы и пробелы
3. Убедиться, что у тебя либо только табы, либо только пробелы. Лучше, конечно, только пробелы, потому что PEP8
4. Не задавать идиотских вопросов, ответы на которые в гугле на целых 10 релевантных страниц

Ответ написан более трёх лет назад

Комментировать

Комментировать
Легкий в установке python фреймворк?

Roman K @deliro

docker + docker-compose, состоящий из двух сервисов:
1. nginx/Caddy, куда (чаще всего) нужно подложить один файлик: nginx.conf/Caddyfile соответсвенно
2. Gunicorn/uWSGI + django

Для ознакомления: https://github.com/wemake-services/wemake-django-t...

С докером никаких systemd и установок пакетов не требуется. Всё, что нужно – поставить сам докер.

P.S. Caddy бонусом сам устанавливает и поддерживает свежим сертификат от Let's Encrypt, твой сервис защищён и доступен по HTTPS из коробки ВООБЩЕ без действий с твоей стороны.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как заставить multiprocessing работать?

Roman K @deliro

Не надо трогать мультипроцессинг без острой необходимости. Используй ProcessPoolExecutor и asyncio (loop.run_in_executor)

Ответ написан более трёх лет назад

4 комментария

4 комментария

Самые активные сегодня

Drno
- 6 ответов
- 0 вопросов
Кот Абсолютный
- 2 ответа
- 0 вопросов
Quqas
- 1 ответ
- 1 вопрос
99insania99
- 2 ответа
- 0 вопросов
VoidVolker
- 2 ответа
- 0 вопросов
Ilya_ktytoi_tip
- 2 ответа
- 0 вопросов