@Teabrew-py

Какие библиотеки использовать для парсинга текстовых файлов (Python)?

Какие библиотеки использовать для парсинга текстовых файлов и поможет ли модуль numba ускорить этот процесс?

Мне нужно распарсить (взять информацию) огромное количество текстовых файлов. Какие модули мне в этом помогут? Слышал о numba, этот модуль позволяет ускорить сам процесс, но вопрос вот в чём: Поможет ли он быстрее брать информацию из файла .txt? Может есть специальные инструменты для таких задач?

Так же коротко о действии самой программы для большего понимания моей цели

Есть куча текстовых файлов, мне нужно взять из них данные и переместить всё в один файл. После чего данный файл будет фильтроваться от лишней информации. В общем, стандартная обработка
  • Вопрос задан
  • 244 просмотра
Пригласить эксперта
Ответы на вопрос 2
shurshur
@shurshur
Сисадмин, просто сисадмин...
Допустим, мы напряжёмся и пропарсим миллион файлов не за полтора часа, а за час, потратив три часа на разработку и отдалку кода. И зачем? Чего мы тут сэкономим? Обычно для разовых операций временем работы заботятся тогда, когда оно действительно велико. Например, если требуется месяц непрерывной работы, то я бы ещё подумал, можно ли его сократить до недели.

Библиотека numba нужна для ускорения собственноручно написанных вычислительных алгоритмов. В парсинге текстовых файлов, скорее всего, узким местом будут исключительно операции ввода-вывода, так что тут она ничем не поможет.
Ответ написан
Комментировать
@Zerg89
Если хотите ускорить что-то на питонe смотрите в сторону cython, ну и основы что текст читать долго, бинарник быстро, так как не требуется лишних преобразований
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы