Задать вопрос
Areso
@Areso
Тыжпрограммист. Гик. Айтишник.

Где хранить датасет для опен-сорс проекта?

У меня есть проект. Упрощенно, он разбит на 2 части по функционалу:
-собирает данные
-делает какую-то выборку по этим данным
Проект open source и доступен на GitHub/
Паук, собирающий данные в датасет, работает медленно (400 записей в минуту), а сам датасет, после окончания работы паука будет весить более 2 гигабайт.
У меня есть предположение, что этот набор данных может быть интересен кому-то сам по себе. Возможно, кто-то придумает что с ним делать, и сможет его переиспользовать, а не собирать данные ~100 дней моим пауком заново.
Где я должен хранить эту информацию, чтобы она была доступна любому желающему и не абузя при этом GitHub?
Есть варианты с облаками (Yandex.Disk, Google Drive, OneDrive, Mail.ru Cloud, Mega), но у меня там все битком забито (создавать новый - через год удалят за неиспользование), ну и, по моему мнению, это не самый лучший вариант для хранения датасетов.
  • Вопрос задан
  • 701 просмотр
Подписаться 3 Простой 2 комментария
Ответ пользователя Areso К ответам на вопрос (5)
Areso
@Areso Автор вопроса
Тыжпрограммист. Гик. Айтишник.
Этот же вопрос был задан мною на opendata.stackexchange.com (Where i should store public dataset for opensource project)
Там я получил единственный ответ, в котором предлагалось использовать следующие сервисы:
datahub.io, data.world
Сразу скажу, второй очень ограничен (3 приватных проекта по 100МБ каждый) на бесплатном тарифе, а вот первый мне понравился (неограниченное количество датасетов до 5ГБ в сумме).
Ответ написан
Комментировать