Что лучше база или сравнение внутри ЯП?

Question

Сергей БАрд @serg_small_developer

Начинающий прогер

Что лучше база или сравнение внутри ЯП?

Всем привет.
Вопрос такой я делаю записи сначала в одну таблицу, а потом в следующий раз во вторую и в конце сравниваю обе таблицы по определенным параметрам и сохраняю в table3, использую mysql,
таблица имеет такой вид id_site, url, title, description и еще несколько параметров
мне в конце нужно взять обе таблицы и сравнить каждую строку с одинаковым id_site и урлом на различия в тайтле и desc.
запрос может быть такой

SELECT *
FROM table1 LEFT JOIN table2
ON table1.url = table2.url
WHERE table1.id_site= %s
AND table2.url IS NOT NULL
AND table1.title != table2.title

в таблице несколько миллионов записей и такая выборка длится очень долго ( от 20 до 30 минут )
такие как нужно индексы сделать не могу так как дозволено только 1000 байт, а у меня больше выходит если делать такой
id_site,url,title или id_site,url,description
и соответственно могу только такой сделать id_site,url,
(id_site может быть одинаковый у 1 000 000 урлов так как это идентификатор сайта к которому он принадлежит ),
так вот плюс к тому что я не могу сделать такие как мне нужно индексы мне подсказали что индексы из str плохой пример,
кто подскажет как быть в такой ситуации использовать что-то типа nosql-database или еще что-то,
или сделать просто индексы по id_site и в момент сравнение не делать его через join, а сделать выборку всего что есть по этому же id_site и дальше уже средствами ЯП делать нужное сравнение, но я боюсь что список из 1 000 000+ может сделать что-то плохое)

Вопрос задан более трёх лет назад
236 просмотров

7 комментариев

Подписаться 1 Простой 7 комментариев

Decadal @Decadal

база данных рассчитана на работу с большими данными. Оптимизируйте запрос, на стороне ЯП у вас вряд ли что-то хорошее выйдет.

Написано более трёх лет назад
SharuPoNemnogu @SharuPoNemnogu
а зачем тут left join, если вы потом отсекаете нулевые результаты в where?
SELECT * FROM table1 INNER JOIN table2 ON table1.url = table2.url AND table1.title != table2.title WHERE table1.id_site= %s
Написано более трёх лет назад
Сергей БАрд @serg_small_developer Автор вопроса

SharuPoNemnogu, я не особо спец по BD), нашел в нете подобное моим требованиям и переделал малость), ну и ещё я только так смог получить то что нужно т.е. только при таком запросе я получаю тайтлы которые отличаются при одинаковых урлах)))

Написано более трёх лет назад
SharuPoNemnogu @SharuPoNemnogu

получается в итоге возьми несколько миллионов записей из первой таблицы умножь на несколько миллионов из второй а потом отфильтруй по этим значениям, конечно там будет пол часа висеть охеревать база

Написано более трёх лет назад
Павел Аксенов @hellmin

Попробуйте сохранять какой нибудь хеш и по нему сравниваете.

Написано более трёх лет назад
Сергей БАрд @serg_small_developer Автор вопроса

SharuPoNemnogu, я понял, спасибо)

Написано более трёх лет назад
Сергей БАрд @serg_small_developer Автор вопроса

Павел Аксенов, спасибо за идею)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

1 комментарий

6 комментариев

Сергей БАрд @serg_small_developer Автор вопроса

понял)

Написано более трёх лет назад

Сергей БАрд @serg_small_developer Автор вопроса

dimonchik2013, я сделав оптимизацию сократил все действия до трёх запросов в базу, вот они

SELECT *
FROM table5
INNER JOIN table7
ON table1.url = table2.url 
AND (
	table1.status != table2.status 
	OR table1.noffolow != table2.noffolow
	OR table1.cannonical != table2.cannonical
	OR table1.title != table2.title
	OR table1.description != table2.description
	)
WHERE table1.id_project= %s

второй

SELECT	*
FROM table1
LEFT JOIN table2
ON table1.url = table2.url 
WHERE
	table1.id_project = %s
	AND table2.url is NULL

и третий

SELECT	*
FROM table2
LEFT JOIN table1
ON table2.url = table1.url 
WHERE
	table2.id_project = %s
	AND table1.url is NULL

и у меня примерно на 2 млн. уходит около 5 минут, это нормально или можно еще уменьшить время)

Написано более трёх лет назад

Dimonchik @dimonchik2013

можешь посмотреть в сторону explain, + лучше select конкретные поля вместо *, если нужны не все

ну и первый запрос не нравится AND с OR обычно не дружат, вот его explain ом потыкай, попередвигай операнды

Написано более трёх лет назад
Сергей БАрд @serg_small_developer Автор вопроса

dimonchik2013, спасибо гляну, а за select написал *, так как где-то читал что так работает быстрее из-за того что база находи нужную строку и выдергивает ей, а если указывать конкретные столбцы то она еще тратит время на "определения" столбцов и выборки данных из них, я так понимаю это не совсем так?)

Написано более трёх лет назад
Dimonchik @dimonchik2013

не совсем, как минимум, если построен индекс, БД быстрее из него выдернет, ну и для сравнения не нужно тянуть хвост,

оно лень писать часто бывает, но лучше привыкнуть, это первый шаг недилетанта в SQL

Написано более трёх лет назад
Сергей БАрд @serg_small_developer Автор вопроса

dimonchik2013, понял, большое спасибо еще раз!)

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- вчера
- 132 просмотра
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 93 просмотра
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 108 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 368 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 241 просмотр
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 673 просмотра
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 554 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 309 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 573 просмотра
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 229 просмотров
2

ответа
Показать ещё Загружается…

база данных рассчитана на работу с большими данными. Оптимизируйте запрос, на стороне ЯП у вас вряд ли что-то хорошее выйдет.
а зачем тут left join, если вы потом отсекаете нулевые результаты в where?
SELECT * FROM table1 INNER JOIN table2 ON table1.url = table2.url AND table1.title != table2.title WHERE table1.id_site= %s
SharuPoNemnogu, я не особо спец по BD), нашел в нете подобное моим требованиям и переделал малость), ну и ещё я только так смог получить то что нужно т.е. только при таком запросе я получаю тайтлы которые отличаются при одинаковых урлах)))
получается в итоге возьми несколько миллионов записей из первой таблицы умножь на несколько миллионов из второй а потом отфильтруй по этим значениям, конечно там будет пол часа висеть охеревать база
Попробуйте сохранять какой нибудь хеш и по нему сравниваете.

Answer 1 · 2017-12-04 19:01:39

Nikita Dergachov @vanillathunder

По возможности нужно избегать обработки данных в коде. Запросы работают намного быстрее.

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2017-12-04 19:59:13

однозначного ответа на вопрос нет
ибо с процедурами и в базу можно логики наложить ого-го

подход: "в базе храним, в коде считаем" обычно больше распространен,

тем не менее, например, из-за того же GIL проще попросить Мускуль проц грузануть на всех ядрах, чем возиться с мултипроцессингом, с другой стороны, если все попросят... да и не Питоном считать можно

Что лучше база или сравнение внутри ЯП?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт