Как найти слово в тексте?

Question

Sushkov @Sushkov

">alert("yohoho")

Как найти слово в тексте?

Есть большой текст и и разделять его split() не очень хорошо, но просто поиском и по подстроке тоже не всегда возможна. Как это сделать как можно более быстрее и эффективнее?

Вопрос задан более трёх лет назад
339 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Разработчик игр на Unity

13 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unity + ИИ

6 месяцев

Далее
Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 2

9 комментариев

Sushkov @Sushkov Автор вопроса

Банальная ошибка в слове

Написано более трёх лет назад
VanKrock @VanKrock

Sushkov: слово с ошибкой - это другое слово.

Написано более трёх лет назад
xmoonlight @xmoonlight

Sushkov: читайте внимательно: ядро+расстояние Левенштейна! Т.е. слова: "малоко" и "молоко" - будут иметь максимальный процент, но разумеется, не 100%.

Написано более трёх лет назад
Sushkov @Sushkov Автор вопроса

xmoonlight: вы предлагаете весь текст как массив слов представить?

Написано более трёх лет назад
xmoonlight @xmoonlight

Sushkov: нет, как поток.

Написано более трёх лет назад
Sushkov @Sushkov Автор вопроса

xmoonlight: есть статья об этом? Не работал с текстом не представляю как это реализовать.

Написано более трёх лет назад
xmoonlight @xmoonlight

Sushkov: habrahabr.ru/post/114997

Написано более трёх лет назад
Sushkov @Sushkov Автор вопроса

xmoonlight: Я читал эту статью, мне бы посмотреть как реализована поточная передача. Реализации Bitap и Левенштейна которые я находил принимают по два параметра, собственно сравниваемые слова. А сравнивать все слова из теста и слова которые ищем по большому тексту довольно долга, я думаю.

Написано более трёх лет назад
xmoonlight @xmoonlight

Sushkov: мыслите верно, надо Вам поучить основы поиска.... (сравнивают структуры)

Написано более трёх лет назад

6 комментариев

Sushkov @Sushkov Автор вопроса

Банальная ошибка в слове

Написано более трёх лет назад
VanKrock @VanKrock

Sushkov: А ну если вам нужен нечеткий поиск, то есть неплохая статья habrahabr.ru/post/114997

Написано более трёх лет назад
Sushkov @Sushkov Автор вопроса

VanKrock: Я читал эту статью, проблема в том как эффективнее передать тест, потому что перегонять текст длинной 1000 слов в массив не очень хорошая идея.

Написано более трёх лет назад
VanKrock @VanKrock

Sushkov: ну 1000 слов - это же не много.

Написано более трёх лет назад
Sushkov @Sushkov Автор вопроса

VanKrock: их может быть и больше + время для обработки каждого слова

Написано более трёх лет назад
VanKrock @VanKrock

Sushkov: Ну в посте обработка 3,2 млн слов за 8 секунд при сложности O(nk), но при таких больших объемах нужно по идее использовать алгоритмы с индексами, они тоже описаны в статье.

Написано более трёх лет назад