Как парсить большой текст на Python?

Question

Михаил Файто @opposite

свободный художник

Как парсить большой текст на Python?

Добрый день, есть такие исходные данные:
дан текстовый файл (txt), данные в котором располагаются вот в таком виде (форматирование выполнено пробелами):

Иванов Иванов    (rus)                            ООО "Белое и пушистое"
Ivanov Ivan           (en)                             White and Fluffy LLC
                                                                 Москва, Кремль, офис №15

Таких записей огромное количество (общий вес документа около 50 мегабайт).

Задача состоит в том, чтобы утилите на вход подать "Белое и пушистое" или "White and Fluffy LLC" и "rus" или "eng", а она в ответ имя и фамилию в нужном языке.
Проблема в весе исходного текстового документа.

Что посоветуете для более-менее быстрого парсинга такого файла?

Как оказалось, важное замечание: этот файл мы не сами редактируем, его присылает другая организация (государственная) изменить его формат невозможно.

Вопрос задан более трёх лет назад
6299 просмотров

11 комментариев

Подписаться 1 Оценить 11 комментариев

javedimka @javedimka

Тебе файл распарсить надо ровно один раз. Создать словарь, потом сохранить его с помощью модуля shelve.

Написано более трёх лет назад
nirvimel @nirvimel

javedimka: Лучше в БД с индексом по полю company.

Написано более трёх лет назад
Михаил Файто @opposite Автор вопроса

nirvimel: хорошо, если БД, то какую посоветуете? простую (с нормальными доками) и лёгкую (не требовательную к ресурсам
)

Написано более трёх лет назад
javedimka @javedimka

Михаил Файто mongodb + pymongo
но имхо, лучше шелв, дб тут избыточность, а с шелв можно сделать почти тоже самое, редактирование, добавление данных как в словаре + в пару строк можно написать графический интерфейс или веб.

Написано более трёх лет назад
javedimka @javedimka

Михаил Файто: Ну и надо было сразу писать, что файл вы не сами редактируете. Сразу бы половина комментов и ответов отпала. Щас уже все что выше не валидно и смысла не имеет.

Написано более трёх лет назад
sim3x @sim3x

Чем разделяются блони компиний?
Почему

ООО "Белое и пушистое" == White and Fluffy LLC

если по правилам должна происходить транслитерация?

! не используйте монгу

Написано более трёх лет назад
Михаил Файто @opposite Автор вопроса

sim3x: парсер съел форматирование. В общем, разделение между словами выполнено пробелами (переменным количеством), чтобы визуально формировались одинаковые 3 столбика (адрес компании находит под английским наименованием).
Вообще, по правилам можно выбрать любое название на английском для ООО, на усмотрение регистрирующего, поэтому они могут отличаться как угодно

Написано более трёх лет назад
sim3x @sim3x
Михаил Файто: разделение между блоками
\n\n компания1 \n\n компания2
Написано более трёх лет назад
Михаил Файто @opposite Автор вопроса

один \n между строками, а внутри строки разное количество пробелов, чтобы сформировались 3 колонки (имя, язык, компания)

Написано более трёх лет назад
sim3x @sim3x

Михаил Файто: те определить машинно, что закончилась одна компания и началась другая никак нельзя?

Написано более трёх лет назад
Михаил Файто @opposite Автор вопроса

в конце каждой компании будет \n

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

6 комментариев

Михаил Файто @opposite Автор вопроса

нет, это утилитка для облегчения жизни людям, которые сейчас в этом файлике руками ищут нужную информацию

Написано более трёх лет назад
Михаил Файто @opposite Автор вопроса

с базой думал, но наколенного скрипта решил, что будет слишком громоздко
плюс, этот файл примерно раз в день меняется (что-то удаляется, что-то добавляется), придётся каждый раз базу заново инициализировать
решение со словарями мне видится будет таким же медленным

Написано более трёх лет назад
nirvimel @nirvimel

Только так.
Прежде чем выполнять поиск, нужно иметь построенный индекс.
Поиск без индекса - киловатты на ветер.

Написано более трёх лет назад
riot26 @riot26

Михаил Файто: распарсить всё в БД и заставить юзеров добавлять данные не в файл, а в новую БД

Написано более трёх лет назад
Михаил Файто @opposite Автор вопроса

riot26: был бы идеальный вариант:) но этот файл нам даёт другая организация (государственная), попросить её завести базу вместо файла будет невозможно

Написано более трёх лет назад
Anton fon Faust @bubandos

Михаил Файто: Ну, так раз в день после изменения файла делать trunсate и заново заполнять.
50Мб - это не полтора гига, быстро в базу сложится.

Громоздко? Ой не смешите...
Цикл, который проходит по файлу и создает sql-файл.
Запуск sql-файла.

В python я пока еще нуб, но, например, на php это все можно сделать уложившить строк в 100 (без фреймворков).

Написано более трёх лет назад

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 208 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 541 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 492 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 280 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 506 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 125 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 663 просмотра
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Тебе файл распарсить надо ровно один раз. Создать словарь, потом сохранить его с помощью модуля shelve.
javedimka: Лучше в БД с индексом по полю company.
nirvimel: хорошо, если БД, то какую посоветуете? простую (с нормальными доками) и лёгкую (не требовательную к ресурсам
)
Михаил Файто mongodb + pymongo
но имхо, лучше шелв, дб тут избыточность, а с шелв можно сделать почти тоже самое, редактирование, добавление данных как в словаре + в пару строк можно написать графический интерфейс или веб.
Михаил Файто: Ну и надо было сразу писать, что файл вы не сами редактируете. Сразу бы половина комментов и ответов отпала. Щас уже все что выше не валидно и смысла не имеет.
Чем разделяются блони компиний?
Почему

ООО "Белое и пушистое" == White and Fluffy LLC

если по правилам должна происходить транслитерация?

! не используйте монгу
sim3x: парсер съел форматирование. В общем, разделение между словами выполнено пробелами (переменным количеством), чтобы визуально формировались одинаковые 3 столбика (адрес компании находит под английским наименованием).
Вообще, по правилам можно выбрать любое название на английском для ООО, на усмотрение регистрирующего, поэтому они могут отличаться как угодно
Михаил Файто: разделение между блоками
\n\n компания1 \n\n компания2
один \n между строками, а внутри строки разное количество пробелов, чтобы сформировались 3 колонки (имя, язык, компания)
Михаил Файто: те определить машинно, что закончилась одна компания и началась другая никак нельзя?

Answer 1 · 2017-02-14 09:25:00

Не понятно, для чего это делать на питоне? Тестовое задание?
Соберите в словарь, чтобы ключами были "Белое и пушистое" и "White and Fluffy LLC" и внутри лежал еще один словарь с ключами "rus" и "eng", а данными соответственно были "Иванов Иванов" и "Ivanov Ivan".

Но, вообще, лучше сделать парсер, который будет одноразово складывать данные в базу, и клиента, который будет подключаться к базе и выбирать нужные данные в зависимости от запроса. Работать будет быстро и надежно.

Answer 2 · 2017-02-14 10:16:11

Однако лягушки. Однако кактус.
Решение настолько простое, что выкладывать готовый код как-то неприлично. Копайте в сторону метода .readline()
Вообще же, чтобы не колоться в будущем и облегчить жизнь людям, я бы на вашем месте прислушался к советам по поводу БД. Сложить один раз в базу (можно sqlite), написать простенькую гуевину к бд для ввода, удаления и поиска. Работы на пол дня.

Answer 3 · 2017-02-14 14:04:34

Например для того, что сейчас в вопросе:
inp = input()

f = open("yourfile", "r")

for line in f:
if inp in line:
fio = line.split(" ")
print(fio[0] + " " + fio[1])

Answer 4 · 2017-02-15 03:27:10

Что посоветуете для более-менее быстрого парсинга такого файла?

Ты должен перегнать это в базу данных, у которой есть средства для SQL запросов. Это сейчас тебе надо найти вот это вот по этому, а завтра понадобится найти совсем другое по совсем другому. И для всего этого (всех возможных вариантов) подходит именно гибкий язык запросов. Поэтому тебе нужно написать перегонщик исходных данных в хорошую базу данных, который ты потом привяжешь к скрипту, который проверяет, изменился ли этот файл с исходными данными, чтобы автоматически составить новую базу. И для того, чтобы его написать, нужно сначала подготовить исходный файл (удалить лишние пробелы), потом проанализировать его на отдельные записи (это лексический анализатор нужно сделать), а потом этот поток лексем сохранить уже в виде записей в таблице базы данных. Но в базе данных у тебя уже должно быть всё по уму сделано, чтобы любые поиски выполнять можно было и ничего не путалось. Возможно даже, что тебе нужно будет сделать разные таблицы (для русского и для английского и связать их). Работы немало.

Как оказалось, важное замечание: этот файл мы не сами редактируем, его присылает другая организация (государственная) изменить его формат невозможно.

А ты вызвался упростить работу? Зря, всё равно не оценят. Будешь бесплатно работать за грамоту и похлопывание по плечу.
Если есть возможность, вообще в такие вещи не лезь, пусть ищут хоть руками, хоть ногами. Говори, что так и должно быть, а сам занимайся полезными вещами, чтобы не деградировать.

Как парсить большой текст на Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт