Как быстрее всего можно перебрать txt файл?

Question

Ivan Yakushenko @kshnkvn

yay ✌️ t.me/kshnkvn

Python

Как быстрее всего можно перебрать txt файл?

Исходный файл: 7,748,982 строк со ссылками
Файл с отработанными ссылками: 3,955,464 строк со ссылками
Задача: удалить отработанные ссылки из исходного.
На данный момент все это выглядит так:

with open('nohup.txt', 'r', encoding='utf-8') as nh:
    nohup = nh.read().split('\n')
    with open("lots.txt", "r", encoding='utf-8') as ls:
        lots = ls.read().split('\n')
        for url in nohup:
            lots.remove(url)
        with open("upd_lots.txt", "w") as ul:
            for lot in lots:        
                ul.write(lot + '\n')

Т.е. я целиком загружаю оба файла в список, затем циклом прохожусь по списку отработанных ссылок и удаляю их из общего списка, после чего записываю все это в новый файл.
При тестовом запуске скорость удаления составляла ~6000 строк в минуту, т.е. такое решение в один поток будет отрабатывать около 10 часов. Да, я могу запустить 10-20-50 потоков и значительно ускорить обработку, но все-же хочется узнать есть-ли более быстрое решение моей задачи помимо разгона методом добавления новых потоков?

Вопрос задан более трёх лет назад
146 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

sim3x @sim3x

А какая причина загрузки обоих файлов в память?

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

sim3x, я - дурак и умнее не придумал. Сойдет за причину?

Написано более трёх лет назад
Вадим Шаталов @netpastor

Ну и хранение всего этого в текстовых файлах - не самый лучший выбор, даже простейший sqlite спасет тебя от кучи гемора

Написано более трёх лет назад
sim3x @sim3x

Ivan Yakushenko, нет

for line in file: pass

делает обработку без загрузки всего файла в память

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

2 комментария

sim3x @sim3x
А что если там юникод в строках?

t = "ї"*128 s = {'%s/%s' % (t, i) for i in range(10_000_000)}
вот такая ерундовина уже почти 4Гб
Написано более трёх лет назад
Ivan Yakushenko @kshnkvn Автор вопроса

Спасибо большое. За 44.64073944091797 секунды отработал такой вариант.
sim3x, на озу мне особо все-равно, у меня все это на vds с 63гб озу запускается.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 15 часов назад
- 73 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 186 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 320 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 197 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 275 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 169 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 648 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 143 просмотра
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 153 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 588 просмотров
2

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

А какая причина загрузки обоих файлов в память?
sim3x, я - дурак и умнее не придумал. Сойдет за причину?
Ну и хранение всего этого в текстовых файлах - не самый лучший выбор, даже простейший sqlite спасет тебя от кучи гемора
Ivan Yakushenko, нет

for line in file: pass

делает обработку без загрузки всего файла в память

Answer 1 · 2019-06-26 12:58:28

7.8кк ссылок во множестве — это чуть больше 1гб:

In [1]: s = {f"https://something.asdfqwerasdfasfgqwefasdfasdf/{i}" for i in range(7748982)}                             

In [2]: import sys                                                                                                      

In [3]: sys.getsizeof(s)                                                                                                
Out[3]: 268435680

In [4]: sum(sys.getsizeof(x) for x in s)                                                                                
Out[4]: 797034036

Из первого файла читаешь множество ссылок:

all_urls = set(open("lots.txt").read().splitlines())

Так же читаешь то, что уже сделано:

done = set(open('nohup.txt').read().splitlines())

Пишешь разницу в файл:

with open("upd_lots.txt", "w") as ul:
    for url in all_urls - done:
        ul.write(url + '\n')

На всё надо не более 3гб оперативки

Answer 2 · 2019-06-26 12:59:05

https://stackoverflow.com/questions/4717250/extrac...
https://stackoverflow.com/questions/18204904/fast-...
https://stackoverflow.com/questions/10379795/how-t...

#find lines only in file1
comm -23 <(sort file1) <(sort file2)

Как быстрее всего можно перебрать txt файл?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт