Есть база данных с описаниями объектов недвижимости. Задача состоит в том, чтобы создать программу, которая сможет выделять необходимые параметры из текста.
Например, в описании может быть указано "общая площадь - 50м2" или "площадь 50/20/10" и т.д. Необходимо учитывать эту разницу в написании.
При помощи каких технологий это можно реализовать? В идеале, это если бы механизм был самообучаемый. Интересны примеры на Python.
sim3x: предполагалось, что в режиме обучения программа обработала данные - человек проверил, программа запомнила как поступать в данной ситуации и т.д. Насчет самообучения - да, очевидно сказал глупость.
Самый простой способ - из всей базы данных выдернуть все паттерны использования, наверняка их будет около 30-40. Вот эти паттерны и запрограммировать. Собственно, за словом "площадь" ищем вперед на 2-3 слова, начинающихся с цифры.