Допустим есть два типа числа в тексте:
- Зарплата
- Телефон
Есть исходный текст: "Нам нужны программисты 25000 28315"
Вот где – 25000 нужно определить как "зарплата", а 28315 определить как "телефон".
При этом зарплату могут написать и так: 25 000, 25т 25 т.р. 25000 рублей и т.д.
Телефон могут написать так: телефон 28315, т. 28315, 2 83 15, 2-83-15, 283-15 и т.д.
Но есть еще вариант что последние два числа будут такими 28310, 28315 – и это номера телефонов.
Сейчас такие объявления разбираются регуляркой, но там ужасный кошмарный ужас от которых очень много проблем.
Вижу несколько вариантов решений: 1 – это собственно написать и обучить нейроную сеть. 2 – это описать алгоритм и я его вижу примерно таким: прогоняем в первой итерации все объявления и навешиваем на текст токены, во второй итерации читаем только числа и тут уже учим читать контекст всего текста. Например для чисел у нас есть несколько проверок на телефон и на зарплату, после выполнения проверок мы накапливаем баллы для числа и определяем если больше нужного то считаем за нужный тип.
Проблема с нейронкой, я в ней не силен и не понимаю как ей передать весь текст объявления что-бы она смогла его прочитать.
Проблема с алгоритмом, пугает его сложность т.к. я еще не до конца понимаю всех подводных камней которые могут появится.
Времени на решение проблемы не так много (ДедЛАЙН).
Прошу помощи, решали ли вы подобную задачу, как?
Как нейронке скормить все предложение чтоб она его прочитала?
Или нейронку в форточку и по старинке додумать алгоритм?