Как правильно парсить данные из Excel файла?

Question

D @sxenguri

Excel

Как правильно парсить данные из Excel файла?

Здравствуйте!
Заранее извиняюсь за не совсем ясное, как по мне, объяснение своей проблемы.
В вузе работаю над проектом, суть которого заключается в парсинге данных из Excel с последующем сохранением в PostgreSQL.
Мне дали таблицу, попросили написать для неё программу. Я написал, данные успешно парсились. Но затем мне скинули ещё с десяток таблиц, и вот тут начались проблемы. Таблицы несколько отличаются в том плане, что данные, которые в первой таблице находятся на n-ой строчке и j-ом столбце (1 скриншот), в других таблицах могут находиться в иных местах (2 скриншот).

Скриншоты

И таких не совпадающих по координатам ячеек в таблицах достаточно много.
А я написал программу, которая начинает парсить данные с конкретного столбца и конкретной строчки конкретной таблицы, ибо предполагал, что таблицы по структуре будут одинаковы.

Вопрос: как грамотно написать парсер таким образом, чтобы он не был привязан к определенным строчкам и столбцам при поиске конкретных данных и, соответственно, не ломался, если нужные данные в таблице находятся, условно говоря, в ячейке C16, а не B16, как предполагалось. Как можно учесть все эти несоответствия?
Спрашиваю не потому, что сам не хочу напрягаться, а потому, что меня самого интересует, как можно написать такую "адаптивную" программу без костылей с кучей if-else и циклов for, и возможно ли такое в принципе.

Не знаю, нужна эта информация или нет, но:
1) Использую язык Java и библиотеку apache.poi.
2) Сам проект на GitHub

Вопрос задан более трёх лет назад
4442 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Основы Excel для работы

1 неделя

Далее
Школа Бизнеса Тинькофф

Excel для малого бизнеса

7 недель

Далее
Академия Eduson

Основы бухгалтерии в 1С: Бухгалтерия 8.3

2 дня

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

3 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Excel

Средний
Можно ли воскресить файл из excel дампа?
- 1 подписчик
- 20 окт.
- 149 просмотров
2

ответа
C++

+1 ещё

Простой
Какую библиотеку для excel c++ посоветуете?
- 3 подписчика
- 01 окт.
- 411 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Как корректно обрабатывать объединённые ячейки?
- 2 подписчика
- 11 сент.
- 611 просмотров
0

ответов
Excel

Простой
Как заполнить таблицу с учетом данных с другой таблицы?
- 1 подписчик
- 01 сент.
- 269 просмотров
2

ответа
Excel

+1 ещё

Средний
Excel, VBA, формы как починить отображение шрифта?
- 4 подписчика
- 18 авг.
- 558 просмотров
2

ответа
Excel

+1 ещё

Средний
Как создать сводную таблицу с фильтрацией по текущей дате?
- 3 подписчика
- 28 июл.
- 146 просмотров
1

ответ
Excel

+1 ещё

Простой
Какой Excel установить на смену 2007?
- 2 подписчика
- 23 июл.
- 296 просмотров
5

ответов
Excel

Простой
Как увеличить значение в ячейке при печати нескольких копий Excel?
- 2 подписчика
- 17 июл.
- 121 просмотр
1

ответ
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Простая программа для ведения электронной таблицы?
- 3 подписчика
- 28 июн.
- 1005 просмотров
6

ответов
Excel

+1 ещё

Простой
Есть ли в Microsoft Word и Excel встроенный функционал использования вкладок, по аналогии с приложением Office Tab?
- 1 подписчик
- 27 июн.
- 112 просмотров
0

ответов
Показать ещё Загружается…

Стажер по наполнению контентом интернет-магазинов

Emilius Agency

от 5 000 ₽

Главный менеджер управления поддержки продаж сети

ПСБ цифровая лаборатория • Москва

от 110 000 до 130 000 ₽

Администратор проектов (банк, Москва, гибрид)

Outlines Tech • Москва

от 120 000 до 140 000 ₽

Answer 1 · 2021-01-13 10:57:14

Теоретически : Сходство этих документов в том что у них есть ячейка Протокол №, Начинаем искать эту ячейку с столбца А. Допустим ячейка А1, Если ячейка не пустая сравниваем ее со значением Протокол №, если не совпадают сравниваем дальше . А2 = Протокол №. Аn = Протокол №?. Не нашли в А столбце смотрите в В столбце.

Нашли протокол. Дальше делаете оффсет от протокола и по принципу если ячейка не пустая она должна равняться дате. Проверяем если значение является датой. тут либо стандартными средствами библиотеки если есть такая возможность, либо руками ( если в ячейке только чифры, если там 3 точки, слеши и т.д )

Answer 2 · 2021-01-13 15:05:51

Файл excel для импорта в базу должен иметь жестко оговоренный формат.
При загрузке нужно(насколько возможно) проверять соответствие.
Если найдено несоответствие - выдать ошибку и ничего не загружать.
Попытки поиска нужных данных в файлах несоответствующего формата часто заканчиваются кучей мусора в базе.

Answer 3 · 2021-01-13 10:16:40

Для начала проверить , назначены ли имена ячейкам и если да - выдергивать значения по именам, а не по адресам.

Как правильно парсить данные из Excel файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт