Посоветуйте, пожалуйста, кто имел опыт с огромными базами, какую выбрать для триллиона+ строк, чтобы относительно быстро работала выборка, вставка, обновление и удаление.
Простаивает относительно мощный сервер, давно хотел написать бота сканирующего всю сеть, чтобы не зависеть ни от каких сервисов, поисковиков и т.д. для проверки обратных ссылок, в базе планирую для начала одну таблицу и 5 столбцов, id, хэш, url акцептора, url донора, анкор.
И хватит ли 2 ТБ?
Триллион это, конечно, с запасом на всякий случай, пока интересует только рунет, поэтому будет, наверно, меньше.
lamerboy, дорогой пользователь, настоятельно рекомендуем еще раз обратить самое пристальное внимание на п. 3.1 регламента работы сервиса (и, в особенности, на его последний абзац).
В противном случае, ваши вопросы будут удаляться по причине тег-спама, а систематические нарушения приведут к блокировке учетной записи.
У вас видимо большой опыт по работе с данной БД, может расскажете как вы обновляете данные, особенно учитывая то, что в документации написано:
Не поддерживаются другие запросы на модификацию части данных: UPDATE, DELETE, REPLACE, MERGE, UPSERT, INSERT UPDATE. Вы можете удалять старые данные с помощью запроса ALTER TABLE ... DROP PARTITION.
В роадмапах написано, что в первом квартале 2018 года они планируют внедрить начальную поддержку UPDATE, что как бы говорит о том, что сейчас этого нет
При чём тут вклад? Данная база предназначена для хранения аналитических данных. Так же авторы говорят, что если вам нужны апдейты и удаления, то скорее всего эта база для вас не подходит.
В данной ситуации подойдёт любая реляционная БД. Как написал dimonchik2013 в рунете всего 5млн доменов, часть из которых явно неактивна.