Лучшие системы AutoML на основе табличных данных?

Дано:
Вагон табличных данных в объеме примерно 5Гб в одной таблице базы MySQL.
Это некий лог действий пользователей.

Задача:
Попытаться провести некое предугадывание дальнейших действий пользователя.
Ещё раз подчеркну — исследование! Проверить несколько теорий, попробовать несколько догадок.

К сожалению, все программисты проекта работают на php. Python-знания есть у некоторых и весьма и весьма скудные.

Подскажите,
есть ли что-то простое наподобии Google AutoML Tables но self-hosted? С каким-то доступом извне по, возможно, API?

Проблем с обучением нет — 4х1080ti можем выделить на исследование. Уверен, более чем достаточно.
  • Вопрос задан
  • 175 просмотров
Пригласить эксперта
Ответы на вопрос 1
@dmshar
Как-то весьма сумбурно. И как мне кажется - заход не с той стороны.
Поясню.
1. ML - это не PHP, Python или С++. Это в первую очередь знание и опыт применения методов - как вы пишете - "предугадывания" (в том числе, конечно). Поэтому опыт ваших программистов - это последнее, о чем следует заботится, если вас интересует "Ещё раз подчеркну — исследование"
2. Ну предположим, найдете вы что-то вроде self-hosted AutoML Tables. Теперь читаем "AutoML Tables enables your entire team of data scientists, analysts, and developers to automatically build and deploy state-of-the-art machine learning models on structured data at massively increased speed and scale." Т.е. в первую очередь - специалисты по DS и аналитики! Они у вас есть? Если есть - то спросите их, с какими инструментами они хотят работать. Если нет, то.... чудес не бывает.
3. Вот когда вы подберете DS-специалистов, когда они продумают, каким образом надо анализировать ваши данные, выполнят Feature engineering, подберут (выберут) хотя-бы класс методов, которые имеет смысл применять, проведут пилотное исследование данных, приблизительно оценят их перспективность - и вполне может ( и скорее всего так оно и будет) оказаться, что именно для вашей задачи возможностей AutoML не хватает, - вот тогда и надо будет говорить и о фермах видеокарт и об опыте конкретных девелоперов.
И рекомендую в самом начале пути осознать, что AutoML - это вовсе не мясорубка - на вход кусок мяса, на выходе - фарш.
4. А так, AutoML систем на рынке достаточно. Ну, на вскидку - H2O AutoML,Auto-WEKA, TransmogrifAI, Firefly и т.д. Вот тут последний (по времени) обзор
https://www.datasciencecentral.com/profiles/blogs/...
и неплохие ссылки для дальнейшего чтения.

P.S. И, кстати, 5 ГБ логов - это весьма скромный объем, тем более для всякого типа AutoML.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы