Ответы пользователя по тегу Hadoop
  • Ceph или хадууп?

    Не работал с обоими, но, насколько понимаю, Hadoop заведомо не подходит, если речь только не об оффлайн хранении и обработке документов.
    Похоже, что вам остается Ceph, который, кстати, реализует интерфейс S3.

    Зато в MongoDB есть GridFS и она хорошо масштабируется. GridFS разбивает файлы и хранит их кусками 255 kB.
    Еще есть GlusterFS и другие решения.
    Ответ написан
    Комментировать
  • Machine learning. Как сделать выведение pattern-ов на большом объёме данных?

    Путь URL можно рассматривать как ориентированный граф.
    Каждая часть пути, разделённая косой чертой, представляет собой узел.
    Повторяющиеся узлы могут быть слиты воедино, если они соответствуют определённым шаблонам узлов и частота таких узлов равна единице (URL некоторого товара на сайте уникален несмотря на повторения в запросах в логах). Допустим, только числовые значения (/1/, /2/, /999/) или узлы, генерируемые для permalink (/kakoe-to-nazvanie-statii-bloga/).

    Дополнительная ссылка: Кластеризация графов и поиск сообществ.
    Ответ написан
    Комментировать