Какие технологии выбрать для Data Mining проекта?

Question

Muiron @Muiron

Какие технологии выбрать для Data Mining проекта?

Здравствуйте. Я хочу написать pet-проект с использованием технологий Data Mining, но видимо немного отстал от жизни в этой области. В общем, прошу совета, какие технологии лучше для этого использовать.
Итак, моя задача:
1) Есть набор из нескольких миллионов текстовых файлов на русском, английском и украинском языках, в которых содержится набор признаков в виде обычного текстового описания. Я нашел решение для английского, но для русского и украинского ничего нет.
2) Оригинальные данные будут лежать на сервере в виде текстовых файлов, в бд будут храниться уже подготовленные данные — ид, набор признаков и ссылка на оригинальный файл.
3) Данные будут обрабатываться несколькими Data Mining алгоритмами (построение дерева решений (CART или C4.5), классификации (kNN), кластеризации и т.д.). Результаты будут передаваться в Web UI или через REST API конечному пользователю.
Стоит выбор:
1) СУБД: думаю использовать PostgreSQL или MySQL. Еще можно попробовать Mongo DB, но у меня все данные структурированные, поэтому не уверен что нужна NoSQL база данных.
2) Технология для поиска признаков в тексте. Не нашел ничего подходящего для русского и украинского, похоже придется парсить по ключевым словам, а потом проверять качество вручную.
3) Собственно Data Mining решение. Нашел несколько библиотек, например:
github.com/haifengl/smile
github.com/apache/mahout
www.cs.waikato.ac.nz/ml/weka
orange.biolab.si
Но в интернете очень мало описания их возможностей чтобы сделать выбор. В противовес, раздумываю над тем, чтобы использовать сервис www.h2o.ai , но смущает его чрезмерная сложность.
Кроме того, хотелось бы использовать один язык для всего бекенда, а не один модуль на Java, другой на Python и т.д.

Вопрос задан более трёх лет назад
788 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Аналитик данных: расширенный курс

11 месяцев

Далее
Академия Эдюсон

Продуктовый аналитик

5 месяцев

Далее
Бруноям

Промпт-инжиниринг

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

DevOps

+2 ещё

Средний
Возможно ли несколько Hadoop на одной машине?
- 1 подписчик
- более года назад
- 112 просмотров
0

ответов
Big data

+1 ещё

Средний
Откуда брать наборы данных для наполнения базы?
- 1 подписчик
- более года назад
- 161 просмотр
2

ответа
Нейронные сети

+1 ещё

Простой
Кто-нибудь запускал llama 3.1 405b?
- 1 подписчик
- более года назад
- 298 просмотров
1

ответ
Искусственный интеллект

+1 ещё

Средний
Как можно максимально уменьшить размер данных?
- 3 подписчика
- более двух лет назад
- 539 просмотров
1

ответ
Алгоритмы

+1 ещё

Простой
Как крупные веб сервисы хранят массивы данных?
- 1 подписчик
- более двух лет назад
- 175 просмотров
1

ответ
Нейронные сети

+3 ещё

Средний
Какие есть стандартные наборы данных для тестирования и сравнения нейронных сетей?
- 1 подписчик
- более двух лет назад
- 125 просмотров
2

ответа
PostgreSQL

+3 ещё

Средний
Какую БД выбрать для хранения и обработки большого кол-ва сообщений?
- 1 подписчик
- более трёх лет назад
- 285 просмотров
1

ответ
Big data

Простой
Какой процент распознавания точности артикула штучного товара на витрине по его внешнему виду считается «хорошим» а какой — «отличным»?
- 1 подписчик
- более трёх лет назад
- 123 просмотра
1

ответ
Big data

Средний
Как эффективно составить гистограмму слов (big data)?
- 1 подписчик
- более трёх лет назад
- 145 просмотров
4

ответа
Data Mining

+1 ещё

Средний
Система управления майниг — ЦОДом, такое вообще существует?
- 2 подписчика
- более трёх лет назад
- 172 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2016-03-14 21:57:36

Не очень понял ваш вопрос.
Вам нужны признаки?
Возьмите tf-idf.
Вам нужен стемминг?
возьмите snowball stemming
Вам нужно выкусывать стоп слова?
Скачайте список стоп слов и выкусывайте.
------
Процесс экстрации фич для текста довольно простой:
Убрать стоп-слова -> POS tagging -> Stemming -> Scoring(tf-idf)

Какие технологии выбрать для Data Mining проекта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт