Jsman: А разве парсер Экселя не распознает объединенные ячейки?
p.s. я сейчас сам занимаюсь обработкой файлов экселя ( пока топорным методом), и понимаю как пользователи усложнябют жизнь своими "объединениями" и удалениями.
Walt Disney: Откуда берется коэффициент 0.65 в
"
У автора что то типа:
Сырая - "Яндекс браузер", эталонная - "Yandex браузер"
1-й "яндекс диск" 0.65, "yandex браузер" 0.45 - первый выше т.к. яндекс более уникальное слово
2-й прогоняем через soundex, "яндекс диск" 0.4, "yandex браузер" .........
"
?
Из чего он строится?
Walt Disney: Что-то наподобие нескольких уровней сита. Каждый просеивает общую кучу. Идея понятна, но реализация и как применяется, по каким факторам отсеивает пока не очень :)
xmoonlight: Конечно, интересно. Я сейчас делаю свой проект теми средствами, которые понял на данный момент. Мне будет очень интересно посмотреть работающие другие варианты.
sirs: Sirs, спасибо за ссылки, надо будет ознакомиться.
А все таки, как примерно ищется в словаре, если в ключевом запросе несколько строк? Есть какое-то объяснение абстрактно- пальцевое?)))
sirs: ну что Вы, не надо "сорри" :).
Написание этого поста с вопросом и есть части реализации более мелких задач.
3) написать реализация для заполнения словаря;
- тут , например, пользуемся описанной Вами ниже схемы, где в HashMap добавляются слова keyword-ы. Получаем некий индекс, где слова ссылаются на исходные целые фразы
4) написать реализацию для поиска в словаре.
- вот тут и вопрос. Я понимаю, как найти по одному ключевому слову в запросе. А если ключевых слов несколько в запросе, как выбрать из полученного списка результата именно то, что нужно? Некое пересечение результатов?
Принципиальная разница в том, что используются символы \b \w .... в том, что так проще указать все символы?