Как организовать работу с огромным объемом информации?

Question

Nestratov @Nestratov

Как организовать работу с огромным объемом информации?

Здравствуйте. Помогите найти решение. Есть коды, вида as2dSd9, их около 50.000.000. Посоветуйте, где хранить эту информацию, может быть БД какую нибудь. Как это грамотнее организовать? Работа с информацией будет на php и ,наверное, c#.

Вопрос задан более трёх лет назад
3093 просмотра

2 комментария

Подписаться 6 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Skillbox

PHP-разработчик. Базовый уровень

3 месяца

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 7

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+1 ещё

Средний
При каких входных данных моя программа работает неверно и как мне научиться самому это понимать? Как научиться искать ошибки?
- 1 подписчик
- 13 часов назад
- 59 просмотров
1

ответ
C#

+2 ещё

Простой
Как универсализировать обычный ViewList в WPF C# XAML?
- 1 подписчик
- 20 часов назад
- 43 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- вчера
- 136 просмотров
2

ответа
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- вчера
- 190 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 223 просмотра
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 202 просмотра
4

ответа
C#

+1 ещё

Простой
Как проверить, наследует ли объект в обобщённом методе?
- 1 подписчик
- 16 окт.
- 73 просмотра
1

ответ
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 212 просмотров
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 140 просмотров
1

ответ
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 1 подписчик
- 14 окт.
- 187 просмотров
4

ответа
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Разработчик PHP | WordPress

Globaldrive

от 150 000 ₽

@Rpsl , нужно будет потом делать проверку - есть ли данный код или нету, удалять.

Answer 1 · 2014-03-24 11:14:39

Andrey Dugin @adugin

Структура типа Radix Tree, на мой взгляд, подходит идеально:
en.wikipedia.org/wiki/Radix_tree

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2014-03-20 14:32:02

Если сложных выборок не требуется и оперативная память позволяет, то можно хранить хоть в key-value хранилище.

Например класть в редис, где код является ключем:
insert->('as2dSd9', 1)

Потом просто проверять есть такой ключ или нету.

Можно убрать в mongodb или mysql, но это будут более дорогие решения в плане памяти и скорости доступа, т.к. требуется обслуживание индекса.

Answer 3 · 2014-03-20 14:29:18

Тимур Сергеевич @MyAlesya

Ну так в Mysql можно)

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2014-03-20 14:33:49

Я бы редис посоветовал. Быстрый key-value хранилище. Ключ - значение кода. Если для вас нужна скорость.
Хотя думаю и (My | Pg)SQL справятся с индексом на 50кк записей.

Answer 5 · 2014-03-20 14:39:39

Вдогонку к предыдущим ораторам. Я бы сделал так:
1. Основное хранилище - redis. Ежели нужно хранение атрибутов, то надо смотреть в сторону hashes. Если же надо просто проверять наличие ключа в базе - можно, как и раньше, хранить инфу в формате key -> 1.
2. Хранилище "на всякий случай" - на sql. То есть, если предполагается активный апдейт данных, то надо учесть, что redis - не ACID хранилище, то есть часть данных может потеряться при сбое. Если же обновление данных не будет активным - от дополнительного хранилища можно отказаться.

Answer 6 · 2014-03-20 14:56:27

Вообще всегда при подобных задачах встает вопрос - что выбирать - скорость или память, в последнее время разруливать стало проще -
сейчас очень дешевая память, поэтому если важна скорость то экономить на памяти нет смысла - купить память дешевле чем мутить что то очень сложное.

Поэтому если важна скорость (миллионы проверок в секунду на наличие ключа) то хранить можно хоть в текстовом файле,
а для проверки создавать програмный хэш, (map, set) и загружать значения при старте сервера, 50 миллионов ключей не так уж и много и для стандартного std::set это примерно (зависит от реализации)
(sizeof(key)+sizeof(_Rb_tree_node_base))*50000000 = (20+16)*50000000 = около 2х гигабайт (тут можно налететь на ограничения скриптовых языков на память но недолго написать такой простой C++ модуль)

Если скорость не важна и устраивает на уровне несколько тысяч проверок в секунду то вам правильно советуют redis или любое другое key value хранилище, сразу есть где хранить, сразу есть api для любых языков
но редис тоже по сути inmemory база т.e память любит

Отсюда если важна память а скорость совсем неважна - сотни проверок в секунду, то добро пожаловать в мир sql или подобных баз.

Answer 7 · 2014-03-20 15:36:41

Исходя из задачи, скорее всего, наилучшим решением будет SQL. Если твой код вида as2dSd9 уникальный, то на это поле будет правильно сделать primary key. Тогда операция поиска по коду будет достаточно быстрая.
Если коды не уникальные, и критична скорость работы, можно использовать партицирование, т.е. разделение данных на несколько таблиц. К примеру, берешь набор первых символов, и делаешь для каждого символа свою таблицу. Соответственно, у тебя количество данных в одной таблице сокращается в десятки раз. Варианты, как партицировать, могут быть разные. Можно от того же первого символа брать ACII код, и делить таблицы по остатку от деления на какое то число. Соответственно, меняя число меняешь количество таблиц. Смысл в том, что бы количество данных в таблице давало приемлемую скорость выборки. И не забудь про поисковый индекс ;)

Так же не будет никаких проблем с работой с этими данными как из PHP, так и из C#

Answer 8 · 2014-03-25 15:44:17

50 миллионов - это не так уж и много. Спокойно поместится в один PostgreSQL на нормальном железе.

Как организовать работу с огромным объемом информации?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт