Где хранить датасет для опен-сорс проекта?

Question

Areso @Areso

Тыжпрограммист. Гик. Айтишник.

Хранение данных

Где хранить датасет для опен-сорс проекта?

У меня есть проект. Упрощенно, он разбит на 2 части по функционалу:
-собирает данные
-делает какую-то выборку по этим данным
Проект open source и доступен на GitHub/
Паук, собирающий данные в датасет, работает медленно (400 записей в минуту), а сам датасет, после окончания работы паука будет весить более 2 гигабайт.
У меня есть предположение, что этот набор данных может быть интересен кому-то сам по себе. Возможно, кто-то придумает что с ним делать, и сможет его переиспользовать, а не собирать данные ~100 дней моим пауком заново.
Где я должен хранить эту информацию, чтобы она была доступна любому желающему и не абузя при этом GitHub?
Есть варианты с облаками (Yandex.Disk, Google Drive, OneDrive, Mail.ru Cloud, Mega), но у меня там все битком забито (создавать новый - через год удалят за неиспользование), ну и, по моему мнению, это не самый лучший вариант для хранения датасетов.

Вопрос задан более трёх лет назад
701 просмотр

2 комментария

Подписаться 3 Простой 2 комментария

Данные в каком формате хранятся? В CSV?
Сжаты?
Роман Мирр, sql инструкции (create table && select into) в архиве.
Впрочем, ничего не мешает хранить их в csv, только не уверен, что это здравая идея - там 40 млн строчек.

Answer 1 · 2018-06-11 14:14:57

Этот же вопрос был задан мною на opendata.stackexchange.com (Where i should store public dataset for opensource project)
Там я получил единственный ответ, в котором предлагалось использовать следующие сервисы:
datahub.io, data.world
Сразу скажу, второй очень ограничен (3 приватных проекта по 100МБ каждый) на бесплатном тарифе, а вот первый мне понравился (неограниченное количество датасетов до 5ГБ в сумме).

Где хранить датасет для опен-сорс проекта?

Войдите на сайт