Задать вопрос

D_DeYneko @D_DeYneko

R

Как использовать R для лемматизации, токенизации, удаления стоп слов и последующим анализом в lda?

Здравствуйте!
Имеется база новостного сайта ~за 20 лет с заголовками, текстами и датой под каждой в формате csv. Объемом это где-то гигабайт.
Собственно хотел бы это как-то обработать, но не знаю как. С консолью знаком только по скачиванию архивов с гитхаба, так что дело тяжкое.
Кто-нибудь делал что-то подобное в R (выбрал его потому что имеет хоть какой-то интерфейс и более-менее бодро работает с данными на ~700к строк), возможно подскажет последовательность действий?
Возможно существуют приложения, в которых этот вопрос можно было бы решить с меньшей кровью?
Видел так же topicminer от вышки, но он отказывается обрабатывать csv и хочет, чтобы ему скормили данные в тхт по каждому документу отдельно, что невозможно в моей ситуации.

Вопрос задан более трёх лет назад
283 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

R

Простой
Error in glimpse(d): could not find function «glimpse»?
- 1 подписчик
- более двух лет назад
- 83 просмотра
1

ответ
Машинное обучение

+1 ещё

Простой
Как работает оценка влияния признаков в методе vip() библиотеки vip в R?
- 1 подписчик
- более двух лет назад
- 48 просмотров
1

ответ
Python

+1 ещё

Простой
Почему Python adf работает хуже чем R adf?
- 4 подписчика
- более двух лет назад
- 336 просмотров
1

ответ
R

Средний
Почему не работает else if?
- 1 подписчик
- более двух лет назад
- 127 просмотров
1

ответ
Кириллица

+1 ещё

Средний
R плохо отображает кириллицу?
- 1 подписчик
- более двух лет назад
- 97 просмотров
1

ответ
R

Простой
Код сломался просто так?
- 1 подписчик
- более двух лет назад
- 74 просмотра
1

ответ
R

Простой
Как использовать RSelenium с браузером Opera?
- 1 подписчик
- более трёх лет назад
- 31 просмотр
0

ответов
R

+1 ещё

Средний
Как расположить элементы на странице shiny dashboard?
- 1 подписчик
- более трёх лет назад
- 64 просмотра
1

ответ
Высшая математика

+2 ещё

Простой
Найти экстремумы функции двух переменных в R?
- 1 подписчик
- более трёх лет назад
- 306 просмотров
1

ответ
R

Простой
Как добавить точки в боксплоты в R?
- 1 подписчик
- более трёх лет назад
- 63 просмотра
1

ответ
Показать ещё Загружается…

Инженер-программист контроллеров в отдел новых разработок - R&D

Ридан • Москва

от 150 000 ₽

CTO / Lead ML Engineer (AI LegalTech Startup)

LegalGPT • Москва

от 3 000 до 6 000 $

QA Automation Engineer на проект в Сколково [ОФИС!]

PHOENIX HR • Москва

от 215 000 до 220 000 ₽