Как правильно парсить данные из Excel файла?

Question

D @sxenguri

Excel

Как правильно парсить данные из Excel файла?

Здравствуйте!
Заранее извиняюсь за не совсем ясное, как по мне, объяснение своей проблемы.
В вузе работаю над проектом, суть которого заключается в парсинге данных из Excel с последующем сохранением в PostgreSQL.
Мне дали таблицу, попросили написать для неё программу. Я написал, данные успешно парсились. Но затем мне скинули ещё с десяток таблиц, и вот тут начались проблемы. Таблицы несколько отличаются в том плане, что данные, которые в первой таблице находятся на n-ой строчке и j-ом столбце (1 скриншот), в других таблицах могут находиться в иных местах (2 скриншот).

Скриншоты

И таких не совпадающих по координатам ячеек в таблицах достаточно много.
А я написал программу, которая начинает парсить данные с конкретного столбца и конкретной строчки конкретной таблицы, ибо предполагал, что таблицы по структуре будут одинаковы.

Вопрос: как грамотно написать парсер таким образом, чтобы он не был привязан к определенным строчкам и столбцам при поиске конкретных данных и, соответственно, не ломался, если нужные данные в таблице находятся, условно говоря, в ячейке C16, а не B16, как предполагалось. Как можно учесть все эти несоответствия?
Спрашиваю не потому, что сам не хочу напрягаться, а потому, что меня самого интересует, как можно написать такую "адаптивную" программу без костылей с кучей if-else и циклов for, и возможно ли такое в принципе.

Не знаю, нужна эта информация или нет, но:
1) Использую язык Java и библиотеку apache.poi.
2) Сам проект на GitHub

Вопрос задан более трёх лет назад
4698 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Excel: от основ до анализа данных

2 месяца

Далее
Академия Эдюсон

Excel и Google-таблицы: от новичка до эксперта

1 месяц

Далее
ProductStar × РБК

Excel для аналитики

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

3 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Excel

+1 ещё

Простой
В какой складской программе можно это сделать?
- 1 подписчик
- 27 янв.
- 257 просмотров
4

ответа
Excel

Простой
Как отсортировать ячейки в 1 столбце EXCEL и далее в другом столбце вывести оборот в порядке убывания?
- 1 подписчик
- 31 дек. 2025
- 155 просмотров
2

ответа
Excel

+1 ещё

Средний
PowerQuery эффективность применения при работе с большим к-вом файлов?
- 2 подписчика
- 12 дек. 2025
- 388 просмотров
2

ответа
Excel

+1 ещё

Простой
Как в VBA открыть книгу EXCEL полностью скрытно от пользователя?
- 2 подписчика
- 04 дек. 2025
- 316 просмотров
1

ответ
Excel

Простой
Почему в Excel 2016 не сохраняет введенные данные?
- 2 подписчика
- 28 нояб. 2025
- 298 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб. 2025
- 581 просмотр
4

ответа
Excel

+2 ещё

Простой
Как в Excel 2016 быстро, по всем ячейкам дописать нужные строки?
- 3 подписчика
- 14 нояб. 2025
- 348 просмотров
3

ответа
Excel

Простой
Почему не работают ссылки Excel в Р7-Офис?
- 2 подписчика
- 11 нояб. 2025
- 397 просмотров
0

ответов
Excel

Средний
Можно ли воскресить файл из excel дампа?
- 1 подписчик
- 20 окт. 2025
- 264 просмотра
2

ответа
C++

+1 ещё

Простой
Какую библиотеку для excel c++ посоветуете?
- 3 подписчика
- 01 окт. 2025
- 631 просмотр
1

ответ
Показать ещё Загружается…

Answer 1 · 2021-01-13 10:57:14

Теоретически : Сходство этих документов в том что у них есть ячейка Протокол №, Начинаем искать эту ячейку с столбца А. Допустим ячейка А1, Если ячейка не пустая сравниваем ее со значением Протокол №, если не совпадают сравниваем дальше . А2 = Протокол №. Аn = Протокол №?. Не нашли в А столбце смотрите в В столбце.

Нашли протокол. Дальше делаете оффсет от протокола и по принципу если ячейка не пустая она должна равняться дате. Проверяем если значение является датой. тут либо стандартными средствами библиотеки если есть такая возможность, либо руками ( если в ячейке только чифры, если там 3 точки, слеши и т.д )

Answer 2 · 2021-01-13 15:05:51

Файл excel для импорта в базу должен иметь жестко оговоренный формат.
При загрузке нужно(насколько возможно) проверять соответствие.
Если найдено несоответствие - выдать ошибку и ничего не загружать.
Попытки поиска нужных данных в файлах несоответствующего формата часто заканчиваются кучей мусора в базе.

Answer 3 · 2021-01-13 10:16:40

Для начала проверить , назначены ли имена ячейкам и если да - выдергивать значения по именам, а не по адресам.

Как правильно парсить данные из Excel файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт