Дано: текст с данными о сущности, допустим, объявление - "Продам стиральную машину Ariston HotPoint v32.01 бывшая в употреблении, состояние отличное. Звонить 79871233445, Алексей. 7000 рублей".
Нужно извлечь данные из текста, такие как: название, модель, состояние, контакт и цена.
Какие алгоритмы, библиотеки, фреймворки, технологии можно для этого использовать?
Любопытная задача. А имеется ли достаточно большая выборка объявлений, для сравнения разброса?
Из текста (человеком) можно извлечь: действие, наименование, состояние/свойства, цена, контакты.
составление словаря атрибутов: имена собственные, валюта, города. По заданным классам атрибутов текста выяснять порядок для разбора текста. К примеру, в заданном предложении определяется наличие действия ("куплю"/"продам"/"обменяю"), затем "состояние", контакт ("звонить" и многозначный номер "79871233445", местного формата), имя "Алексей", цифры "7000" + валюта "рублей". Наименование - самое сложное для определения и потому, возможно, имеет смысл определять этот атрибут последним.