У меня есть эксель файл с огромным (~10.000) количеством ячеек, в каждой из которых строка текста. Каждая строка указывает день и название. Эта строка имеет некий формат:
"Финансовая аналитика" - означает, что финансовая аналитика будет проходить каждую неделю
"1,3,5 н Мониторинг" - означает, что Мониторинг будет только в 1,3 и 5 неделю текущего месяца
"кр 2 н Финансы" - означает, что Финансы будут проходить каждую неделю в этом месяце, кроме 2 недели.
И еще некоторое количество таких обозначений и их комбинаций.
Задача состоит в том, чтобы доставать из таких строчек полезные данные:
Массив недель, если указан
Указано ли обозначение "Кроме"
Название
И тд
Проблема состоит в том, что иногда это все редактируется человеком, отсюда постоянные опечатки, отход от структуры и тд.
Сейчас используется регулярное выражение, но его длина стала слишком большой и поддерживать его стало трудно. Есть ощущение, что с этим могут справиться нейронные сети, тк человек спокойно определяет смысл строки и он всегда трактуется однозначно, но я имею довольно слабое представление об этом, поэтому спрашиваю у вас, так ли это. Так же буду благодарен за подсказку, что можно почитать и посмотреть на эту тему, тк все, что нашел, к сожалению, пока оказывалось бесполезным. Заранее благодарю за любые ответы!
Василий Банников, как оказалось, примерно так мы сейчас и сделали, но тогда я не знал про БНФ и его варианты. Спасибо, возможно, это упростит работу с регулярным выражением, нужно более глубоко изучить это. Однако, мне все же интересно, можно ли работать с такими строчками с помощью нейронных сетей и доставать из них определенные части
blankstudio, наверное как-то можно. Есть же классификация слов в адресах. Но там по сути нейронки используются только для определения, какой кусок из большого текста является сущностью, а потом уже уже приходят регулярки.
мне кажется нейронки будут давать неверные результаты и пропускать верные, такова их природа, в случае ошибок будет непонятно что можно сделать, кроме как продолжать обучать.
почему у вас одно большое регулярное выражение
вы же с естественным языком работаете, вам надо разбирать слова, ключевые... много мелких регулярок под каждый случай.
сочувствую... адова это работа, как то с таким сталкивался.