Задать вопрос
Areso
@Areso
Тыжпрограммист. Гик. Айтишник.

Где хранить датасет для опен-сорс проекта?

У меня есть проект. Упрощенно, он разбит на 2 части по функционалу:
-собирает данные
-делает какую-то выборку по этим данным
Проект open source и доступен на GitHub/
Паук, собирающий данные в датасет, работает медленно (400 записей в минуту), а сам датасет, после окончания работы паука будет весить более 2 гигабайт.
У меня есть предположение, что этот набор данных может быть интересен кому-то сам по себе. Возможно, кто-то придумает что с ним делать, и сможет его переиспользовать, а не собирать данные ~100 дней моим пауком заново.
Где я должен хранить эту информацию, чтобы она была доступна любому желающему и не абузя при этом GitHub?
Есть варианты с облаками (Yandex.Disk, Google Drive, OneDrive, Mail.ru Cloud, Mega), но у меня там все битком забито (создавать новый - через год удалят за неиспользование), ну и, по моему мнению, это не самый лучший вариант для хранения датасетов.
  • Вопрос задан
  • 692 просмотра
Подписаться 3 Простой 2 комментария
Решения вопроса 1
athacker
@athacker
А почему "неиспользование"? Или датасет не будет обновляться вашим софтом?

Можно накостылить скриптик, который будет курлом по расписанию раз в несколько дней заливать/удалять маленький файлик из публичного облака. На тот же Я.Диск курлом точно можно файлы отправлять. Тогда активность на учётке будет постоянно :-)
Ответ написан
Пригласить эксперта
Ответы на вопрос 4
@pfg21
ex-турист
сделать дома NAS изи старого компа, воткнуть в него винт-другой, взгромоздить на это веб- ftp- и т.д. сервер.
NAS пользовать в целях личного хранилища, сервера.
Ответ написан
Комментировать
Areso
@Areso Автор вопроса
Тыжпрограммист. Гик. Айтишник.
Этот же вопрос был задан мною на opendata.stackexchange.com (Where i should store public dataset for opensource project)
Там я получил единственный ответ, в котором предлагалось использовать следующие сервисы:
datahub.io, data.world
Сразу скажу, второй очень ограничен (3 приватных проекта по 100МБ каждый) на бесплатном тарифе, а вот первый мне понравился (неограниченное количество датасетов до 5ГБ в сумме).
Ответ написан
Комментировать
2ord
@2ord
Есть варианты с облаками (Yandex.Disk, Google Drive, OneDrive, Mail.ru Cloud, Mega), но у меня там все битком забито (создавать новый - через год удалят за неиспользование), ну и, по моему мнению, это не самый лучший вариант для хранения датасетов.
Публичный набор данных как раз имеет смысл хранить и раздавать в облаке.
Ответ написан
@andrew-nii
Неизменяемый датасет для пользователей можно торрентами раздавать. быстро, просто, hashcheck.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы