@cfmm

Как разделить строку на слова с учетом различных алфавитов текста?

Имеется строка текста, слова в которой могут принадлежать различным алфавитам (латинскому, русскому, испанскому и т.д.). Слова могут разделяться как пробелами так и знаками пунктуации, переводами строки и т.п.

Как разбить такую строку на слова?

Пробовал использовать регулярное выражение /\b(\S+)\b/g , но оно корректно работает только с латинским алфавитом.
  • Вопрос задан
  • 331 просмотр
Решения вопроса 1
ProjectSoft
@ProjectSoft
Front-end && Back-end разработчик
Не нужно искать сами слова. Достаточно исключить символы
https://regex101.com/r/FBQ4aZ/1
Добавить свои знаки препинания, которые нужно исключить
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 1
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
кодировка строки для regex = кодировке страницы?
var re = new RegExp('\b(\S+)\b', 'ug');
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы