Алгоритм ИИ для обработки текста и извлечения столбцов данных

Question

for7raid @for7raid

Алгоритм ИИ для обработки текста и извлечения столбцов данных

Есть структурированный текст в виде таблицы следующего вида

Позиция           Код    С1   С2     С3
Кошки             1000   20   30     45
Собачки           2000   13   49    -40
Попугайчики       3000   45         -90
зеленопёрые
Свинки            4000	             10
Хомяки            5000	      67

Необходимо извлечь данные из столбцов Код, С1, С2 и С3.
Проблема заключается в том, что в разных таблицах расстояние между столбцами может быть от 5 до 40 пробелов, при этом как видно в примере, данных в одном из столбцов может не быть вовсе. Текст в столбцах может быть центрирован по любому краю или центру.
Исходя из этих условий, использование регулярных выражений не всегда дает ожидаемый результат и данные могут быть смещены из одного столбца в другой.
Моя идея заключается в том, чтобы научить некий алгоритм разбирать текст на столбцы, проводя между ними условную границу, как бы это сделал человек и получить таким образом четыре массива, откуда уже можно по индексу строки выдернуть нужное значение.
Я не силен в ИИ и поэтому даже не знаю в какую сторону копать, стало быть, прошу подсказать направление для изучения: какой алгоритм выбрать, на чем лучше его реализовывать, как обучать и т.д.

Вопрос задан более трёх лет назад
2796 просмотров

3 комментария

Подписаться 6 Оценить 3 комментария

for7raid @for7raid Автор вопроса

Это не решение задачи. Другого источника нет.

Написано более трёх лет назад
for7raid @for7raid Автор вопроса

@sim3x Поясните вашу мысль, пожалуйста. В качестве источника используются сканы документов, распознанный текст с них. Заменить этот источник никаким образом не получится. Что вы предлагаете?

Написано более трёх лет назад
Андрей @OLS

Обсуждение идет активное - может быть у Вас есть возможность выложить наиболее типичный файл ? Может обезличить что-нибудь в нем предварительно, если конфиденциальное.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Data Scientist с нуля

10 месяцев

Далее
Академия Эдюсон

Нейросети на практике: 125 инструментов для работы и бизнеса

2 месяца

Далее
GB (GeekBrains)

Искусственный интеллект. Специалист

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

3 комментария

for7raid @for7raid Автор вопроса

Тупым алгоритмом тут не отделаешься.
Во-первых, если у нас в первой строке нет половины данных? Значит все остальные строки будут расчитаны неверно? Или как понять, можно ли первую строку брать за пример или какую можно?
Во-вторых, как понять "сильно" это уже сильно, а не просто разрыв между столбцами? Пример: Расстояние между столбцами по 4 пробела, центрирование по левому краю. В первой строке все столбцы заполнены четырехзначными числами. Во второй строке в среднем столбце стоит число из одной цифры. Как понять что это второй столбец, а не третий? А если у нас центрирование по центру?
Такой "тупой" алгоритм в лоб был использован сразу же и дал результаты во много раз хуже, чем регулярки.
Может быть это и не чистый ИИ, но нужен именно обучаемый алгоритм, который может подстраиваться под каждый конкретный документ с его спецификой.

Написано более трёх лет назад
Сергей Протько @Fesor

@for7raid, у вас из примера строки независимы. Они разделены переносом. Так что если в какой-то строке что-то будет не правильно - то можно забить.

сильно - это значит что у нас нашло только 3 значения из 4-ех, это значит что какого-то значения нету. Какого значения - можно судить по максимальному расстоянию. Скажем если все расстояния более мение невелеки, то значит у нас пропущено последнее. Если у нас между 2 и 3-им значением большое количество проблелов, значит 3-е смещаем и делаем 4-ым, а настоящее третье у нас соответственно пропущенно.

Написано более трёх лет назад
for7raid @for7raid Автор вопроса

@Fesor, Нельзя рассматривать строки независимо друг от друга.
Если каждую строку рассматривать независимо и каждая будет независимо неправильная - какой толк в этой системе?
>> у нас нашло только 3 - мы еще ничего ничем не нашли, с чего мы будем делать такой вывод?
Что значит "более менее невелеки" - откуда мы возьмём эту "константу".
В этом и вопрос, какой запрограммировать алгоритм, который посчитает эти пробелы, разделяющие столбцы. Если найти это магическое число, то как предлагает @OLS ниже, мы просто удалим эти пробелы в строках, склеим столбцы и получим уже строгоструктуированный текст, где, зная знакоместа, выбрать столбцы уже проще простого, тем же регулярками.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Боты

+1 ещё

Простой
Как создать бота ВК на иностранных мозгах?
- 1 подписчик
- 30 июн.
- 246 просмотров
2

ответа
Обработка изображений

+1 ещё

Простой
Через какой ИИ можно массово редактировать изображения?
- 2 подписчика
- 30 июн.
- 400 просмотров
3

ответа
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 446 просмотров
2

ответа
Веб-разработка

+2 ещё

Средний
Как избежать вездесущего agentic coding и остаться в IT?
- 8 подписчиков
- 01 июн.
- 3733 просмотра
12

ответов
Unity

+2 ещё

Простой
Почему Visual Studio не может найти библиотеку Unity.Sentis, если соответствующий плагин уже установлен в проект и даже смог конвертировать файл?
- 1 подписчик
- 24 апр.
- 118 просмотров
1

ответ
Искусственный интеллект

Простой
OpenRouter грозит не дать доступ россиянам?
- 3 подписчика
- 16 апр.
- 1403 просмотра
1

ответ
Искусственный интеллект

Простой
Как подключить OpenClaw к OpenwebUI?
- 2 подписчика
- 09 апр.
- 277 просмотров
1

ответ
Искусственный интеллект

Простой
Как решить длинные диалоги с ИИ?
- 1 подписчик
- 07 апр.
- 461 просмотр
5

ответов
Искусственный интеллект

Простой
Не работают генерации ии в cap cut?
- 1 подписчик
- 27 мар.
- 9350 просмотров
1

ответ
Google

+1 ещё

Простой
Gemini внезапно перестало работать?
- 1 подписчик
- 24 мар.
- 1931 просмотр
3

ответа
Показать ещё Загружается…

Это не решение задачи. Другого источника нет.
@sim3x Поясните вашу мысль, пожалуйста. В качестве источника используются сканы документов, распознанный текст с них. Заменить этот источник никаким образом не получится. Что вы предлагаете?
Обсуждение идет активное - может быть у Вас есть возможность выложить наиболее типичный файл ? Может обезличить что-нибудь в нем предварительно, если конфиденциальное.

Answer 1 · 2014-05-31 11:15:18

ИИ тут не причем. Тут нужно алгоритм разработать, обычный тупой алгоритм.

Я бы попробовал решить задачу так:
- первая колонка у нас есть всегда, далее у нас идут данные.
- Выбираем из строки позиции всех данных в строке, например для строки с попугайчиками у нас получается, что значение сильно отстает от предыдущего, значит перед ним пропущено одно. Ну и так по расстоянию между значениями можно делать предположения о том, к какой колонке оно принадлежит.

Answer 2 · 2014-05-31 11:23:32

ИИ здесь не при чем.

Если у Вас столбцы с продвижением вниз не могут уехать в бок так сильно что заедут на соседнее место шапки соседнего столбца, то Вам достаточно найти знакоместа, которые равны пробелам на всем протяжении файла с самого верха до самого низа ("пробельные столбцы"). Затем объединить вплотную прилегающие пробельные столбцы, разбить по их позициям каждую строчку и найти внутри разбиения либо число либо пустоту (число пропущено). Этот алгоритм детерминированный и не имеет параметров (настраивать в нем нечего).

Если предыдущее не выполняется и столбцы съезжают сильно, то можно запустить этот же алгоритм не глобально на всем файле, а локально, например, на близлежащих 3-4-5 строках - это будет соответствовать тому, что живой человек считает, что за 5 строк столбец не может уехать на место соседнего. В локальной версии уже возможно придется поискать подходящие параметры (кол-во мониторящихся последовательных строк, максимальное смещение вбок и т.п.)