Можно ли с помощью Apache Lucene определить, входит ли какая-то строка из набора в текст?

Question

Sevak Avetisyan @Sevak_Avet

Java/Android

Можно ли с помощью Apache Lucene определить, входит ли какая-то строка из набора в текст?

Здравствуйте!
Стоит такая задача: есть список слов (например, ["мама", "дом", "семья"]), а так же есть тексты ("Я живу у мамы", "В доме было холодно", и т.д.). Нужно определить, встречается ли в указанных текстах какое-либо слово из списка. Например, в первом тексте есть слово "мамы", если приведем его к исходной форме ("мама"), то увидим, что оно содержится в исходном списке, так же со вторым предложением. Поможет ли мне в этом деле Apache Lucene? Ну или какая-нибудь другая библиотека на Java, которая справится с поставленной задачей

Вопрос задан более трёх лет назад
554 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Skillbox

Java-разработчик

8 месяцев

Далее
ProductStar

Профессия: Java-разработчик

9 месяцев

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

Простой
Как восстановить свой профиль в Майнкрафт?
- 1 подписчик
- 15 дек.
- 141 просмотр
1

ответ
Java

+2 ещё

Простой
Как изменить версию транзитивной зависимости в maven?
- 1 подписчик
- 08 дек.
- 79 просмотров
0

ответов
Java

+1 ещё

Средний
Как добавить цепочку сертификатов pkcs12 в java8 для взаимной аутентификации TLS?
- 2 подписчика
- 04 дек.
- 110 просмотров
0

ответов
Apache HTTP Server

+1 ещё

Простой
Что не так с win-acme и Let’s Encrypt?
- 1 подписчик
- 03 дек.
- 140 просмотров
0

ответов
Android

+1 ещё

Средний
Сервис Android (aidl) с системными правами (в прошивке) может быть доступен для несистемного приложения?
- 1 подписчик
- 18 нояб.
- 100 просмотров
1

ответ
Компьютерные сети

+1 ещё

Простой
Как опубликовать lsFusion-проект в Сети, с помощью ngrok?
- 1 подписчик
- 04 нояб.
- 128 просмотров
1

ответ
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 352 просмотра
3

ответа
Java

+1 ещё

Простой
В чем моя ошибка при deploy maven?
- 1 подписчик
- 26 окт.
- 150 просмотров
1

ответ
Java

Средний
Почему крашится сервер Minecraft Forge?
- 1 подписчик
- 13 окт.
- 171 просмотр
2

ответа
Java

+1 ещё

Простой
Как создать аннотацию, подобную Jakarta @Size?
- 2 подписчика
- 09 окт.
- 170 просмотров
1

ответ
Показать ещё Загружается…

Automation QA Engineer (Java)

ITK academy • Москва

от 90 000 ₽

Java Developer

ИТРУМ • Ростов-на-Дону

от 75 000 ₽

Java разработчик

SENSE

До 450 000 ₽

Answer 1 · 2015-06-29 13:47:11

Вот работающий пример поиска по неточному вхождению:

public static void main(String[] args) throws Exception {
        String fieldName = "myField";

        //создание тестового индекса
        Directory directory = new RAMDirectory();//в "настоящей" Системе здесь должно быть FSDirectory.open(dir)
        RussianAnalyzer analyzer = new RussianAnalyzer(Version.LUCENE_46);
        IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_46, analyzer);
        IndexWriter writer = new IndexWriter(directory, config);
        writer.addDocument(createDocument(fieldName, "Я живу у мамы"));
        writer.addDocument(createDocument(fieldName, "В доме было холодно"));
        writer.commit();
        writer.close();

        //поиск
        int startFrom = 0;
        int pageSize = 20;
        DirectoryReader ireader = DirectoryReader.open(directory);
        IndexSearcher indexSearcher = new IndexSearcher(ireader);
        //FuzzyQuery осуществляет поиск неточных вхождений
        FuzzyQuery wildcardQuery = new FuzzyQuery(new Term(fieldName, "мама"));
        TopDocs topDocs = indexSearcher.search(wildcardQuery, startFrom + pageSize);
        ScoreDoc[] hits = topDocs.scoreDocs;
        for (int i = startFrom; i < topDocs.totalHits; i++) {
            if (i > (startFrom + pageSize) - 1) {
                break;
            }
            Document hitDoc = indexSearcher.doc(hits[i].doc);
            if (hitDoc != null) {
                System.out.println(hitDoc.get(fieldName));
            }
        }
    }

Часть исходников взята с серьёзной промышленной Системы, так что если что-то кажется странным, не думайте, просто используйте. Когда всё заработает "как часы", тогда вернётесь к "странностям" и поразмыслите, стоит ли переделывать...

Answer 2 · 2015-06-29 00:50:28

Нашел пока вот такое решение, которое приводит каждое слово текста в исходной форме, далее нужно только посмотреть, есть ли какое-то их слов списка в полученном результате. Но, полагаю, что это тоже можно сделать быстрее.

RussianAnalyzer analyzer = new RussianAnalyzer();
TokenStream tokenStream = analyzer.tokenStream(null, new StringReader("Я живу у мамы"));
TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);

while (tokenStream.incrementToken()) {
    String term = termAttribute.term();
    System.out.println(term);
}

Можно ли с помощью Apache Lucene определить, входит ли какая-то строка из набора в текст?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт