Задать вопрос
Ответы пользователя по тегу Hadoop
  • Ceph или хадууп?

    2ord
    @2ord
    Не работал с обоими, но, насколько понимаю, Hadoop заведомо не подходит, если речь только не об оффлайн хранении и обработке документов.
    Похоже, что вам остается Ceph, который, кстати, реализует интерфейс S3.

    Зато в MongoDB есть GridFS и она хорошо масштабируется. GridFS разбивает файлы и хранит их кусками 255 kB.
    Еще есть GlusterFS и другие решения.
    Ответ написан
    Комментировать
  • Machine learning. Как сделать выведение pattern-ов на большом объёме данных?

    2ord
    @2ord
    Путь URL можно рассматривать как ориентированный граф.
    Каждая часть пути, разделённая косой чертой, представляет собой узел.
    Повторяющиеся узлы могут быть слиты воедино, если они соответствуют определённым шаблонам узлов и частота таких узлов равна единице (URL некоторого товара на сайте уникален несмотря на повторения в запросах в логах). Допустим, только числовые значения (/1/, /2/, /999/) или узлы, генерируемые для permalink (/kakoe-to-nazvanie-statii-bloga/).

    Дополнительная ссылка: Кластеризация графов и поиск сообществ.
    Ответ написан
    Комментировать