@Muiron

Какие технологии выбрать для Data Mining проекта?

Здравствуйте. Я хочу написать pet-проект с использованием технологий Data Mining, но видимо немного отстал от жизни в этой области. В общем, прошу совета, какие технологии лучше для этого использовать.
Итак, моя задача:
1) Есть набор из нескольких миллионов текстовых файлов на русском, английском и украинском языках, в которых содержится набор признаков в виде обычного текстового описания. Я нашел решение для английского, но для русского и украинского ничего нет.
2) Оригинальные данные будут лежать на сервере в виде текстовых файлов, в бд будут храниться уже подготовленные данные — ид, набор признаков и ссылка на оригинальный файл.
3) Данные будут обрабатываться несколькими Data Mining алгоритмами (построение дерева решений (CART или C4.5), классификации (kNN), кластеризации и т.д.). Результаты будут передаваться в Web UI или через REST API конечному пользователю.
Стоит выбор:
1) СУБД: думаю использовать PostgreSQL или MySQL. Еще можно попробовать Mongo DB, но у меня все данные структурированные, поэтому не уверен что нужна NoSQL база данных.
2) Технология для поиска признаков в тексте. Не нашел ничего подходящего для русского и украинского, похоже придется парсить по ключевым словам, а потом проверять качество вручную.
3) Собственно Data Mining решение. Нашел несколько библиотек, например:
github.com/haifengl/smile
github.com/apache/mahout
www.cs.waikato.ac.nz/ml/weka
orange.biolab.si
Но в интернете очень мало описания их возможностей чтобы сделать выбор. В противовес, раздумываю над тем, чтобы использовать сервис www.h2o.ai , но смущает его чрезмерная сложность.
Кроме того, хотелось бы использовать один язык для всего бекенда, а не один модуль на Java, другой на Python и т.д.
  • Вопрос задан
  • 783 просмотра
Пригласить эксперта
Ответы на вопрос 1
@mik222
Не очень понял ваш вопрос.
Вам нужны признаки?
Возьмите tf-idf.
Вам нужен стемминг?
возьмите snowball stemming
Вам нужно выкусывать стоп слова?
Скачайте список стоп слов и выкусывайте.
------
Процесс экстрации фич для текста довольно простой:
Убрать стоп-слова -> POS tagging -> Stemming -> Scoring(tf-idf)
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы