Комментарии пользователя pcdesign — Хабр Q&A

Задать вопрос

Комментарии

Как упростить даннный код на python?

pcdesign @pcdesign

Евгений, ага

Написано более трёх лет назад
Почему SQLAlchemy не обновляет объект после повторного его запроса?

pcdesign @pcdesign

Session.refresh() methods are used in those cases when one wants to force an object to re-load its data from the database, in those cases when it is known that the current state of data is possibly stale. Reasons for this might include:

some SQL has been emitted within the transaction outside of the scope of the ORM’s object handling, such as if a Table.update() construct were emitted using the Session.execute() method;
if the application is attempting to acquire data that is known to have been modified in a concurrent transaction, and it is also known that the isolation rules in effect allow this data to be visible.

Написано более трёх лет назад
Как передать значения из одной функции в другую?

pcdesign @pcdesign

eifory, ага

Написано более трёх лет назад
Как передать значения из одной функции в другую?
pcdesign @pcdesign
eifory,

>>> def b(): ... return 1, 2, 3, 4 ... >>> >>> def c(a1, a2, a3, a4): ... print(a1, a2, a3, a4) ... >>> >>> c(9, *b()[1:4]) 9 2 3 4 >>>

Написано более трёх лет назад
Как ускорить код с подсчетом похожести?

pcdesign @pcdesign Автор вопроса

Roman Kitaev, Спасибо. Скрипт № 2 справился за 3 часа со всеми 30к.

time python get_dub.py

real 229m27.654s
user 913m7.855s
sys 0m3.513s

Написано более трёх лет назад

Как ускорить код с подсчетом похожести?

pcdesign @pcdesign Автор вопроса

Roman Kitaev, я добавил следующее:

if ratio > 0.5:                                                          
	print(f"PID: {pid} id={a['_id']} & {b['_id']} ratio={ratio}")        
                                                                                 
if a['_id'] == 100:                                                      
	sys.exit()

Запустил скрипт. Вот такой результат для второго варианта.

time python get_dub.py 
PID: 11177 id=22 & 24075 ratio=0.7941176470588235
PID: 11180 id=25 & 5977 ratio=0.8571428571428571
PID: 11180 id=28 & 21417 ratio=1.0
PID: 11178 id=30 & 11981 ratio=0.8095238095238095
PID: 11179 id=33 & 7291 ratio=0.6
PID: 11179 id=34 & 16198 ratio=0.7741935483870968
PID: 11180 id=35 & 5576 ratio=1.0
PID: 11180 id=37 & 24975 ratio=0.8333333333333334
PID: 11179 id=40 & 29336 ratio=0.7857142857142857
PID: 11180 id=42 & 13502 ratio=0.5862068965517241
PID: 11180 id=46 & 8368 ratio=1.0
PID: 11179 id=46 & 15887 ratio=0.9090909090909091
PID: 11178 id=52 & 9102 ratio=0.8571428571428571
PID: 11178 id=56 & 2003 ratio=0.8571428571428571
PID: 11180 id=65 & 15491 ratio=0.9
PID: 11177 id=66 & 9120 ratio=0.7692307692307693
PID: 11179 id=68 & 13993 ratio=0.9361702127659575
PID: 11179 id=71 & 17274 ratio=0.6111111111111112
PID: 11178 id=78 & 28625 ratio=0.926829268292683
PID: 11177 id=80 & 11477 ratio=0.8484848484848485
PID: 11180 id=82 & 14174 ratio=0.6511627906976745
PID: 11178 id=82 & 23249 ratio=0.7719298245614035
PID: 11177 id=85 & 11667 ratio=1.0
PID: 11180 id=87 & 6150 ratio=1.0
PID: 11178 id=90 & 18204 ratio=0.88
PID: 11177 id=92 & 2253 ratio=0.8571428571428571
PID: 11177 id=94 & 898 ratio=0.9
PID: 11177 id=95 & 22233 ratio=0.6495726495726496

real    1m21.651s
user    5m24.178s
sys     0m0.121s

Где-то 6 часов нужно до завершения :)

3-ий вариант вообще не алё, работает медленнее чем первый вариант.

Написано более трёх лет назад

Как ускорить код с подсчетом похожести?

pcdesign @pcdesign Автор вопроса

Roman Kitaev, на картинке это уже с моим файлом?

Написано более трёх лет назад
Как ускорить код с подсчетом похожести?
pcdesign @pcdesign Автор вопроса
Roman Kitaev, спасибо!
Вот ссылка на реальный файл, он 1.5 мега всего:
Дальше я его вот так открываю
import json with open('obj.json') as f: arr = json.load(f)

Написано более трёх лет назад

Как ускорить код с подсчетом похожести?

pcdesign @pcdesign Автор вопроса

Вот результат работы для первых 100 id.

Первый вариант

id=  22 Сравниваемый id= 24075 Коэффицент похожести: 0.7941176470588235
id=  25 Сравниваемый id= 5977 Коэффицент похожести: 0.8571428571428571
id=  28 Сравниваемый id= 21417 Коэффицент похожести: 1.0
id=  30 Сравниваемый id= 11981 Коэффицент похожести: 0.8095238095238095
id=  33 Сравниваемый id= 7291 Коэффицент похожести: 0.6
id=  34 Сравниваемый id= 16198 Коэффицент похожести: 0.7741935483870968
id=  35 Сравниваемый id= 5576 Коэффицент похожести: 1.0
id=  37 Сравниваемый id= 24975 Коэффицент похожести: 0.8333333333333334
id=  40 Сравниваемый id= 29336 Коэффицент похожести: 0.7857142857142857
id=  42 Сравниваемый id= 13502 Коэффицент похожести: 0.5862068965517241
id=  46 Сравниваемый id= 8368 Коэффицент похожести: 1.0
id=  46 Сравниваемый id= 15887 Коэффицент похожести: 0.9090909090909091
id=  52 Сравниваемый id= 9102 Коэффицент похожести: 0.8571428571428571
id=  56 Сравниваемый id= 2003 Коэффицент похожести: 0.8571428571428571
id=  65 Сравниваемый id= 15491 Коэффицент похожести: 0.9
id=  66 Сравниваемый id= 9120 Коэффицент похожести: 0.7692307692307693
id=  68 Сравниваемый id= 13993 Коэффицент похожести: 0.9361702127659575
id=  71 Сравниваемый id= 17274 Коэффицент похожести: 0.6111111111111112
id=  78 Сравниваемый id= 28625 Коэффицент похожести: 0.926829268292683
id=  80 Сравниваемый id= 11477 Коэффицент похожести: 0.8484848484848485
id=  82 Сравниваемый id= 14174 Коэффицент похожести: 0.6511627906976745
id=  82 Сравниваемый id= 23249 Коэффицент похожести: 0.7719298245614035
id=  85 Сравниваемый id= 11667 Коэффицент похожести: 1.0
id=  87 Сравниваемый id= 6150 Коэффицент похожести: 1.0
id=  90 Сравниваемый id= 18204 Коэффицент похожести: 0.88
id=  92 Сравниваемый id= 2253 Коэффицент похожести: 0.8571428571428571
id=  94 Сравниваемый id= 898 Коэффицент похожести: 0.9
id=  95 Сравниваемый id= 22233 Коэффицент похожести: 0.6495726495726496
id=  100 Сравниваемый id= 15315 Коэффицент похожести: 0.9

Второй вариант уже с cycle

PID: 11072 id=22 & 24075 ratio=0.7941176470588235
PID: 11072 id=66 & 9120 ratio=0.7692307692307693
PID: 11072 id=80 & 11477 ratio=0.8484848484848485
PID: 11072 id=85 & 11667 ratio=1.0
PID: 11072 id=92 & 2253 ratio=0.8571428571428571
PID: 11072 id=94 & 898 ratio=0.9
PID: 11072 id=95 & 22233 ratio=0.6495726495726496

Написано более трёх лет назад

Как ускорить код с подсчетом похожести?
pcdesign @pcdesign Автор вопроса
- У меня 4 ядра
$ cat /proc/cpuinfo | awk '/^processor/{print $3}' | wc -l 4

- На счет строки понятно. Спасибо! У меня python 3.6, но мой редактор vim офигел от такой строки :)

- На счет того, что результат отличаются. Но он реально отличается. Это меня немного смущает.
Я сделал выборку
if ratio > 0.5:

На небольшом кол-ве айтемов. И есть отличие. Первый вариант нашел больше результатов.

Написано более трёх лет назад
Как ускорить код с подсчетом похожести?
pcdesign @pcdesign Автор вопроса
Спасибо большое!

- Я запустил оба варианта.
Почему-то оба варианта выдают разные результаты. Но, второй быстрее, конечно.

- Эта строчка у меня не работала:
msg = f"PID: {os.getpid()} id={a['_id']} & {b['_id']} ratio={ratio}"

И я не очень понимаю что это.

- os.getpid() выдает все время одно и тоже число

Написано более трёх лет назад
Как разбить строки на слова?

pcdesign @pcdesign

Ломается, если слово содержит дефис. Например, "как-нибудь".

Написано более трёх лет назад
Как разбить массив на файлы фиксированной величины?
pcdesign @pcdesign Автор вопроса
Сергей Горностаев, фиксированным размером - нельзя.
Там примерно так
['<item>foo</item>, '<item>foo bar</item>' , '<item>bla bar</item>"]

И нельзя, чтобы <item> открылся в одном файле, а закрылся в другом.

Написано более трёх лет назад

Как разбить массив на файлы фиксированной величины?

pcdesign @pcdesign Автор вопроса

import random
import sys


def chunkify(items, chunk_size):
    acc = 0
    position = 0
    for n, i in enumerate(items):
        size = sys.getsizeof(i)
        if acc + size >= chunk_size:
            yield items[position:position+n]
            acc = 0
            position = n
        acc += size


arr = random.sample(range(1, 1000000), 1000)
chunks = chunkify(arr, 3072)
for i, c in enumerate(chunks):
    print('****')
    print(c)
    print('****')
    str1 = ''.join(str(e) for e in c)
    myfile = open(str(i) + '.txt', 'w')
    myfile.write(str1)

результат:

-rw-rw-r--  1 sv sv     753 Aug  8 10:47 8.txt
drwxr-xr-x  2 sv sv     125 Aug  8 10:47 .
-rw-rw-r--  1 sv sv    2.0K Aug  8 10:47 6.txt
-rw-rw-r--  1 sv sv    1.4K Aug  8 10:47 7.txt
-rw-rw-r--  1 sv sv    3.2K Aug  8 10:47 4.txt
-rw-rw-r--  1 sv sv    2.7K Aug  8 10:47 5.txt
-rw-rw-r--  1 sv sv    2.5K Aug  8 10:47 3.txt
-rw-rw-r--  1 sv sv    1.3K Aug  8 10:47 1.txt
-rw-rw-r--  1 sv sv    1.9K Aug  8 10:47 2.txt
-rw-rw-r--  1 sv sv     641 Aug  8 10:47 0.txt

Написано более трёх лет назад

Как разбить массив на файлы фиксированной величины?

pcdesign @pcdesign Автор вопроса

Сергей Горностаев, да.

Написано более трёх лет назад
Как разбить массив на файлы фиксированной величины?

pcdesign @pcdesign Автор вопроса

Спасибо за ответ. Вариант с range я привел для примера. На самом деле массив текстовый.

Написано более трёх лет назад
Как подобрать размер шрифта в зависимости от длины текста?

pcdesign @pcdesign Автор вопроса

Это не для веб, а для PIL
https://pillow.readthedocs.io/en/5.2.x/

Написано более трёх лет назад
Как подобрать размер шрифта в зависимости от длины текста?

pcdesign @pcdesign Автор вопроса

Спасибо.

Написано более трёх лет назад
Как в iptables разрешить доступ по http только для определенного ip?

pcdesign @pcdesign

tehnazavr, да -s вместо -d . Сотрите все правила и начните с нуля.

Написано более трёх лет назад
Как сделать limit и offset в js?

pcdesign @pcdesign Автор вопроса

Спасибо! То что надо, простите мое косноязычие.

Написано более трёх лет назад

Самые активные сегодня

Константин
- 3 ответа
- 0 вопросов
Dupych
- 2 ответа
- 0 вопросов
Вячеслав Васильев
- 2 ответа
- 0 вопросов
anon1986
- 0 ответов
- 2 вопроса
hawkyh
- 2 ответа
- 0 вопросов
GotYouGently
- 0 ответов
- 1 вопрос