Задать вопрос
Areso
@Areso
Тыжпрограммист. Гик. Айтишник.

Где хранить датасет для опен-сорс проекта?

У меня есть проект. Упрощенно, он разбит на 2 части по функционалу:
-собирает данные
-делает какую-то выборку по этим данным
Проект open source и доступен на GitHub/
Паук, собирающий данные в датасет, работает медленно (400 записей в минуту), а сам датасет, после окончания работы паука будет весить более 2 гигабайт.
У меня есть предположение, что этот набор данных может быть интересен кому-то сам по себе. Возможно, кто-то придумает что с ним делать, и сможет его переиспользовать, а не собирать данные ~100 дней моим пауком заново.
Где я должен хранить эту информацию, чтобы она была доступна любому желающему и не абузя при этом GitHub?
Есть варианты с облаками (Yandex.Disk, Google Drive, OneDrive, Mail.ru Cloud, Mega), но у меня там все битком забито (создавать новый - через год удалят за неиспользование), ну и, по моему мнению, это не самый лучший вариант для хранения датасетов.
  • Вопрос задан
  • 745 просмотров
Подписаться 3 Простой 2 комментария
Помогут разобраться в теме Все курсы
  • REBRAIN
    Ceph
    1 месяц
    Далее
Решения вопроса 1
athacker
@athacker
А почему "неиспользование"? Или датасет не будет обновляться вашим софтом?

Можно накостылить скриптик, который будет курлом по расписанию раз в несколько дней заливать/удалять маленький файлик из публичного облака. На тот же Я.Диск курлом точно можно файлы отправлять. Тогда активность на учётке будет постоянно :-)
Ответ написан
Пригласить эксперта
Ответы на вопрос 4
@pfg21
ex-турист
сделать дома NAS изи старого компа, воткнуть в него винт-другой, взгромоздить на это веб- ftp- и т.д. сервер.
NAS пользовать в целях личного хранилища, сервера.
Ответ написан
Комментировать
Areso
@Areso Автор вопроса
Тыжпрограммист. Гик. Айтишник.
Этот же вопрос был задан мною на opendata.stackexchange.com (Where i should store public dataset for opensource project)
Там я получил единственный ответ, в котором предлагалось использовать следующие сервисы:
datahub.io, data.world
Сразу скажу, второй очень ограничен (3 приватных проекта по 100МБ каждый) на бесплатном тарифе, а вот первый мне понравился (неограниченное количество датасетов до 5ГБ в сумме).
Ответ написан
Комментировать
2ord
@2ord
Есть варианты с облаками (Yandex.Disk, Google Drive, OneDrive, Mail.ru Cloud, Mega), но у меня там все битком забито (создавать новый - через год удалят за неиспользование), ну и, по моему мнению, это не самый лучший вариант для хранения датасетов.
Публичный набор данных как раз имеет смысл хранить и раздавать в облаке.
Ответ написан
@andrew-nii
Неизменяемый датасет для пользователей можно торрентами раздавать. быстро, просто, hashcheck.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
ITK academy Казань
от 75 000 до 125 000 ₽
Инком Нижний Новгород
от 160 000 до 230 000 ₽
Инком Нижний Новгород
от 160 000 до 230 000 ₽