Такой вопрос, в целях обучения собираюсь разработать веб-парсер - будет собирать определенную информацию из интернета, предполагаю, что в таблице будет около 20 столбцов с различными параметрами.
А вот записей, предположительно, около 500 000 - 1 000 000.
И, разумеется, встает вопрос - как все это правильно сделать?
С парсером то разберусь, интересует именно то, как оптимизировать получение данных из БД? Чтобы было быстро и оптимально работало даже при большом кол-ве запросов, скажем, 20k - 50k в день (день ~10 часов)?
Что можете сходу посоветовать? Какую БД использовать? Какие настройки? СУБД? Книги, статьи?
Кстати, писать собираюсь на C++.
Опыт в этой сфере на данный момент:
Просто знаю как создавать БД в MySQL, соответственно сам SQL, т.е. не знаю никаких тонкостей именно работы с БОЛЬШИМИ ДАННЫМИ. Пока на уровне Select, Insert и т.д.
Ну, не стоит же недооценивать способности автора (и кого угодно) написать настолько кривой запрос, что он положит не только mysql, но и весь сервер, даже на миллионе записей :)
Junior007: вот когда у вас будут реальные данные, реальные запросы и реальные проблемы, тогда и приходите. Сейчас на ваш вопрос невозможно ответить в связи с отсутствием собственно вопроса.
Junior007: нужно уточнять какие данные будут. Нужна ли sql или nosql БД. Вообще любая современная (mysql, postgres и т.д) справится без каких либо проблем.