Есть большой текст и и разделять его split() не очень хорошо, но просто поиском и по подстроке тоже не всегда возможна. Как это сделать как можно более быстрее и эффективнее?
xmoonlight: Я читал эту статью, мне бы посмотреть как реализована поточная передача. Реализации Bitap и Левенштейна которые я находил принимают по два параметра, собственно сравниваемые слова. А сравнивать все слова из теста и слова которые ищем по большому тексту довольно долга, я думаю.
VanKrock: Я читал эту статью, проблема в том как эффективнее передать тест, потому что перегонять текст длинной 1000 слов в массив не очень хорошая идея.
Sushkov: Ну в посте обработка 3,2 млн слов за 8 секунд при сложности O(nk), но при таких больших объемах нужно по идее использовать алгоритмы с индексами, они тоже описаны в статье.