У меня есть проект. Упрощенно, он разбит на 2 части по функционалу:
-собирает данные
-делает какую-то выборку по этим данным
Проект open source и доступен на GitHub/
Паук, собирающий данные в датасет, работает медленно (400 записей в минуту), а сам датасет, после окончания работы паука будет весить более 2 гигабайт.
У меня есть предположение, что этот набор данных может быть интересен кому-то сам по себе. Возможно, кто-то придумает что с ним делать, и сможет его переиспользовать, а не собирать данные ~100 дней моим пауком заново.
Где я должен хранить эту информацию, чтобы она была доступна любому желающему и не абузя при этом GitHub?
Есть варианты с облаками (Yandex.Disk, Google Drive, OneDrive, Mail.ru Cloud, Mega), но у меня там все битком забито (создавать новый - через год удалят за неиспользование), ну и, по моему мнению, это не самый лучший вариант для хранения датасетов.
Роман Мирр, sql инструкции (create table && select into) в архиве.
Впрочем, ничего не мешает хранить их в csv, только не уверен, что это здравая идея - там 40 млн строчек.
А почему "неиспользование"? Или датасет не будет обновляться вашим софтом?
Можно накостылить скриптик, который будет курлом по расписанию раз в несколько дней заливать/удалять маленький файлик из публичного облака. На тот же Я.Диск курлом точно можно файлы отправлять. Тогда активность на учётке будет постоянно :-)
Паук поедает довольно много ресурсов на довольно мощной виртуалке, это расточительно ради разового проекта поддерживать датасет в актуальном состоянии, к тому же до конца консистентным он не будет никогда (100 дней между началом и концом сбора данных это маленькая вечность).
По поводу дерганья YD это неплохая идея. Я так понимаю, через REST API дергается с токеном?
сделать дома NAS изи старого компа, воткнуть в него винт-другой, взгромоздить на это веб- ftp- и т.д. сервер.
NAS пользовать в целях личного хранилища, сервера.
Этот же вопрос был задан мною на opendata.stackexchange.com (Where i should store public dataset for opensource project)
Там я получил единственный ответ, в котором предлагалось использовать следующие сервисы:
datahub.io, data.world
Сразу скажу, второй очень ограничен (3 приватных проекта по 100МБ каждый) на бесплатном тарифе, а вот первый мне понравился (неограниченное количество датасетов до 5ГБ в сумме).
Есть варианты с облаками (Yandex.Disk, Google Drive, OneDrive, Mail.ru Cloud, Mega), но у меня там все битком забито (создавать новый - через год удалят за неиспользование), ну и, по моему мнению, это не самый лучший вариант для хранения датасетов.
Публичный набор данных как раз имеет смысл хранить и раздавать в облаке.