Ответы пользователя Roman K

Как декодировать текст?

Roman K @deliro

import base64

text = 'eyJzaWQiOiJmYVVGVjBpTVo2OTRpY3BTVnhsMGJNbzBaUEJGTmcyWiIsImFpZCI6bnVsbCwiZXhwIjoxNjY3MTQ4NTQyfQ'
print(base64.b64decode(text + "=="))

Пожалуйста

Ответ написан более двух лет назад

1 комментарий

Как составить число n из элементов списка?

Roman K @deliro

Изучай https://docs.python.org/3/library/itertools.html

Ответ написан более двух лет назад

Комментировать

Sqllite ерунда в ответе на запрос (дата/время)?

Roman K @deliro

Как минимум, даты не хранят в таком формате, потому что в таком формате они не сравниваются лексикографически. Правильный формат - "2022-10-28 01:19". От большего к меньшему. Год, месяц, день. Размерность обязательна, нельзя написать 2022-2-15 и сказать, что это 15е февраля, только 2022-02-15, иначе у тебя все даты февраля станут позже месяцев с двузначными числами: октябрь, ноябрь, декабрь ("10", "11", "12" меньше "2" лексикографически). Только так между двумя датами в виде строк можно поставить знак «больше» или «меньше». Ну или хранить как timestamp тоже вполне вариант, меньше места займёт, но менее человекочитаемо

Ответ написан более двух лет назад

Комментировать

Почему кв.матрица — nxn?

Roman K @deliro

Это троллинг такой? У квадрата все стороны равны, верно? Вот и у квадратной матрицы количество столбцов равно количеству строк. А причём тут индекс — я могу только догадываться. Почему трёхэтажный дом по 3 квартиры на каждом этаже называют девятиквартирным, если у каждой квартиры есть свой номер?

Ответ написан более двух лет назад

2 комментария

Что будет при увеличении вместимости канала?

Roman K @deliro

1. Нет, либо нет в 99.9999% случаев
2. Да, чтобы ограничить то, на скольких OS тредах может расположиться рантайм. Это прямо влияет на CPU-bound задачи и почти не влияет на IO-bound. Например, у тебя есть функция, которая перемножает матрицы. В канал поступают матрицы, есть 10 горутин, которые читают оттуда и умножают матрицы. Очевидно, что если GOMAXPROCS будет == 1, то все эти горутины будут жить на одном треде и будут "мешать" друг другу, задействуя не более одного ядра процессора. Если GOMAXPROCS будет 10, то каждая горутина может расположиться в отдельном ОС треде и считать себе там матрицы на "собственном" ядре.
3. Увеличится канал (sic!). Канал — это очередь. Канал без буфера — это "очередь", в которую можно добавить элемент только если с другой стороны этот канал кто-то пытается прочитать. Если такого нет — горутина будет ждать, пока этот канал кто-то захочет прочитать и наоборот, если кто-то читает канал, а с другого конца никто туда не пишет, то горутина будет ждать до тех пор, пока в канал кто-то не захочет записать. Если в канале есть буфер, то это уже становится полноценной очередью. Есть N слотов, если кто-то пришёл записать в канал, канал никем не слушается и там есть хотя бы один свободный слот — этот "кто-то" запишет в канал и пойдёт по своим делам и только если в буфере нет свободных слотов, то этот "кто-то" будет ждать, пока слот освободится. И наоборот, если кто-то слушает канал и в буфере канала уже что-то есть, то он сразу забирает первый на очереди элемент и уходит. Обычно это делают, чтобы сгладить нагрузку. Например, у тебя есть парсеры, которые что-то парсят, чтобы потом записать на диск. Но диск — штука непредсказуемая, может записать за 1мс, а может тупить 20мс. Довольно странно, если парсер будет ждать диск эти 20мс, хотя у него есть работа, которую он может выполнять прямо сейчас. Для этого можно создать буфер, куда парсер будет кидать данные СРАЗУ, а горутина, которая пишет на диск, заберёт их "когда-нибудь потом", когда диск перестанет тупить.

Ответ написан более двух лет назад

4 комментария

Как запараллелить выполнение ф-ций в асинхронном парсере?

Roman K @deliro

1. Создать очередь (asyncio.Queue)
2. Парсер пишет в очередь, писарь csv читает очередь и пишет в неё.
3. Парсер и писарь должны запускаться одновременно, то есть, типа такого

q = asyncio.Queue()  # с maxsize можно поиграться, в данном случае отставание писаря от парсера может быть не более чем на один элемент
await asyncio.gather(get_pages_data(q), csv_writer(q))

4. Парсеров, кажется, надо сделать больше одного. То есть, появляется второй asyncio.Queue (назовём его work_queue), куда падают lines из файла, эту очередь слушают N воркеров (скажем, 5 штук), получают элемент, работают с ним, затем пишут в result_queue, который слушает писарь csv и записывает результат в файлик

Псевдокод будет выглядеть так:

async def file_reader(work_q, n_parsers):
    with open('all_links_1.txt', 'r') as f:
        lines = [line.strip() for line in f.readlines()]
    for line in lines:
        await work_q.put(line)
    for _ in range(n_parsers):  # говорим парсерам, что работы больше нет
        await work_q.put(None)

async def parser(work_q, results_q):
    while True:
        line = await work_q.get()
        if line is None:
            return
        result = ... магия с походом в http ...
        await results_q.put(result)

async def writer(results_q):
    with open('companys.csv', 'w', newline='') as file:  # возможно, открывать файл имеет смысл при каждом получении элемента и закрывать после записи, так файл всегда будет "целым", но процесс записи будет дольше
        writer = csv.writer(file, delimiter=',')
        while True:
            result = await results_q.get()
            if result is None:
                return
            writer.writerow([result['name'], result['phone'], result['edrpou']])


async def main():
    work_queue = asyncio.Queue()
    results_queue = asyncio.Queue(10)  # парсер не должен ждать, пока писарь запишет в файл (хард может быть занят), поэтому небольшой буфер
    n_parsers = 5
    tasks = []
    parsers = []
    reader_task = asyncio.create_task(file_reader(work_queue, n_parsers))
    tasks.append(tasks)
    for _ in range(n_parsers):
        parser_task = asyncio.create_task(parser(work_queue, results_queue))
        tasks.append(parser_task)
        parsers.append(parser_task)
    tasks.append(asyncio.create_task(writer(results_queue)))
    await asyncio.gather(*parsers)  # ждём все парсеры
    await results_queue.put(None)  # говорим писарю, что больше ничего не будет
    await asyncio.gather(*tasks)  # дожидаемся все остальные таски (вернее, будет только одна — writer)

Однако нужно понимать, что порядок результатов при таком подходе не будет гарантированным или хоть сколько-то стабильным. Поэтому, если порядок важен, стоит писать в файл какую-то промежуточную структуру (пусть тот же csv, но с доп столбцом link) и под конец всех работ вычитывать её, сортировать и складывать уже в нужном порядке

Войдите на сайт