seregazolotaryow64
@seregazolotaryow64
IT Специалист и самоучка

Кроме текста NTLK векторизирует ли спецсимволы HTML и не только?

Доброе утро!
Так как знаю хорошо основы NTLK и её метода word_tokenize(),я сталкиваюсь с проблемой, когда NTLK должен превратить исходный текст в вектора, если он имеет спецсимволы HTML и другие виды символов...
Например:

👐 Привет! Как настроение?
[Region = Samara]
😇 Ок, я нашел для вас интересные места в районе[moscow district = Krylatskoe]


Существуют ли методы в word_tokenize() для векторизации текста с любыми видами текста(за исключением обычного текста)?
  • Вопрос задан
  • 102 просмотра
Пригласить эксперта
Ответы на вопрос 1
dimonchik2013
@dimonchik2013
non progredi est regredi
посмотри в
https://stackoverflow.com/questions/9149709/extrac...

но я так и не понял что тебе нужно: считать самодельные слова типа '~тостер' и '!тостер' отличными от 'тостер' или очистить от спецсимволов
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы