Алгоритмы анализа строк, токенизации?

Question

OneManStartup @OneManStartup

Алгоритмы анализа строк, токенизации?

Есть такой руби проект Picky. Это поисковик, который принимает на входе только один поисковый запрос, но может разделять смысловые части. Делается это ввиде firstname:vova lastname:gagarin.

Категорий конечно может быть много, но я хочу сделать так что-бы поисковый запрос анализировался на содержание смысловых блоков без конкретных указаний. Например по ключевым словам из словаря.

И потом если есть сомнения, система бы выдавала бы ответ ввиде «вы имели ввиду фамилию или улицу?»

Искал долго, но очень много токенизаторов работает по одному слову, т.е. не разбивают строку на несколько смысловых.

Вроде как в solr можно сделать через фильтры. Но для меня вся эта тема нова, поэтому надеюсь на подсказки, куда копать.

(если есть какие-то библиотеки в помощь на руби было бы замечательно)

Вопрос задан более трёх лет назад
4269 просмотров

Комментировать

Подписаться 8 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

4 комментария

OneManStartup @OneManStartup Автор вопроса

Да вчера ночью начитался, да это NER. И есть несколько подходов, использовать классификатор(к примеру Наивный байесовский классификатор) или использовать регулярные выражения. Осталось только понять, что использовать лучше. И как классифицировать. Я вижу только как натаскивать классификатор по отдельным токенам и связкам токенов. Сложная конечно тема для меня, но интересная)

Написано более трёх лет назад
yourmary @yourmary

Если тема интересная, можно посмотреть для общего развития стэнфордский курс (просмотр видео вроде доступен независимо от курса). Про NER есть в четвертой неделе.

Написано более трёх лет назад
Cybersoph @Cybersoph

А что Вы понимаете под «смысловыми блоками»? И почему эти вещи, которые Вы называете то «блоками», то «частями», являются «смысловыми»? Что Вы понимаете под этим термином?

Написано более трёх лет назад
OneManStartup @OneManStartup Автор вопроса

2yourmary, уау спасибо за такую ссылку.
2Cybersoph, это просто мое косноязычие) А так я имел ввиду токены, которые можно определить как какой-либо тип данных. Т.е. как в гугле если вбить 200 pounds то он тебе скажет сколько это в килограммах.

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

Простой
Оператор, операция, функция, процедура — что всё это значит?
- 1 подписчик
- 05 авг.
- 282 просмотра
2

ответа
Программирование

Простой
Какие есть источники, помогающие понять бизнес-логику проекта?
- 3 подписчика
- 30 июл.
- 843 просмотра
1

ответ
Программирование

Простой
Как готовиться к ВСоШ по информатике 9-11 классов/олимпиадам по программированию вообще?
- 1 подписчик
- 20 июл.
- 212 просмотров
3

ответа
Программирование

+1 ещё

Простой
Ответьте на вопрос по информатике?
- 1 подписчик
- 10 июл.
- 737 просмотров
3

ответа
Программирование

+1 ещё

Средний
Редактирование прошивки китайской камеры видеонаблюдения?
- 1 подписчик
- 01 июл.
- 392 просмотра
1

ответ
Поисковая оптимизация

+3 ещё

Средний
Yandex не индексирует изображения на сайте, почему?
- 2 подписчика
- 01 июл.
- 776 просмотров
2

ответа
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 284 просмотра
3

ответа
Поисковая оптимизация

+2 ещё

Средний
Нужно ли как-то решать проблему в файле robots (Правило, которое не учитывается Googlebot: host)?
- 1 подписчик
- 25 июн.
- 170 просмотров
1

ответ
Программирование

+3 ещё

Средний
Какой лучше выбрать мини пк под сервер?
- 2 подписчика
- 19 июн.
- 3821 просмотр
16

ответов
Поисковая оптимизация

+1 ещё

Простой
Улучшают ли позиции в ПС разные «оптимизаторы» текстов?
- 1 подписчик
- 19 июн.
- 127 просмотров
3

ответа
Показать ещё Загружается…

AS400 / RPG Инженер

DevCube Innovations

от 4 000 до 5 000 $

Инженер АСУ ТП

Магнитогорск Связь Софт • Магнитогорск

от 100 000 до 250 000 ₽

Инженер-разработчик встроенного ПО прецизионных приборов

НИИП • Москва

от 150 000 до 250 000 ₽

Answer 1 · 2012-05-16 18:55:17

Не уверен, что правильно понял задачу, но звучит похоже на NER — Named Entity Recognition. С помощью алгоритмов NER можно выделять из текстов имена, названия географических объектов и т.п. Но это по сути простая классификация, а не семантический анализ (т.е. никакого «анализа смысла»).

Answer 2 · 2012-05-16 21:48:04

Лучше использовать классификатор. Регулярками — только если что-то очень простое с устоявшимся паттерном (номера телефонов). По алгоритмам, лучше CRF. Наивный байес тоже подойдет. Главное, хороший корпус для тренировки.

А, да, еще можете сюда глянуть — www.freebase.com/. Гугловый проект, там народ вручную вбивает.

И да, не бросайтесь терминами «смысл». Народ, кто занимается с нлп этого не очень любит :).

Алгоритмы анализа строк, токенизации?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт