Ответы пользователя mayton2019 по тегу «MySQL»

Как в ходе распознавание номеров, записывать данные в БД, при этом исключить дубли?

mayton2019 @mayton2019

Bigdata Engineer

Автор ты прикалываешся? Задача дедубликации сведений в БД - решена еще в XX веке через unique
index на поле. Или любой программист тебе на коленке сделает хештабличку или дерево для этого на любом
языке.

А задача машинного зрения это в миллион раз более сложная по сути задача. И ты умудрился в вопрсе через
запятую это писать? Это все равно что ты бы спросил как изобрести колесо чтоб атомный реактор
ехал.

Ответ написан 24 янв.

Комментировать

Как реализовать базу данных таким образом чтобы для каждого клиента она была изолированной при этом было быстродействие (MYSQl)?

mayton2019 @mayton2019

Bigdata Engineer

Автор может посмотреть в multi-tenant database. Кажется это реализовано уже для Oracle.
Для MySQL - похоже нет но есть всякие обходные пути типа как пишут вот на стековервлоу.

https://stackoverflow.com/questions/5570102/how-to...

Ответ написан 24 янв.

1 комментарий

Как в SQL посчитать количество пользователей записей, дата которых хотя бы раз была в каждую неделю?

mayton2019 @mayton2019

Bigdata Engineer

Можешь взять за основу этот шаблон. И дописать его.

with temp as (
select 
  user,
  log_time,
  LAG(log_time) OVER (PARTITION BY user ORDER BY log_time) as prev_log_time
from logins)
select user, date_diff(log_time , prev_log_time) as days_diff from temp

В задании неясно что делать с пользователями
которые за всю историю заходили только один раз. Это маржинальный кейс.

И напиши какие ожидается получить отчеты в ответ на твою табличку.

Ответ написан более года назад

Комментировать

Как организовать умное кеширование MYSQL?

mayton2019 @mayton2019

Bigdata Engineer

Можно попробовать материализовать какие-то срезы главной таблицы для
быстрого извлечения информации. Классифицировать
оперативные типы запросов и для каждого класса создать материализованную view читать оттуда.
Структура mat-view может быть денормализованной например

CREATE TABLE mview1 (id varchar primary key, doc JSON);

Формат документа может быть произвольным но главное что он должен
собирать ровно те сведенья которые нужны для responce ни больше ни меньше.

По поводу быстрого извлечения 100 тысяч datarows из 2 млн. Это вызывает у меня
большое изумление. Для кого эта выборка? Человек-оператор не успеет прочитать
эти строки за разумное время. А для фоновых задач типа jobs скорость отлика вообще
не важна. Особенно если джобы работают ночью например и еще и объединяются в пакет.

И если у вас идет неравномерный доступ к таблице то возможно имеет смысл разделить
ее на union из двух таблиц типа hot_data + historical_data. Это потребует переписывания
софта но зато у вас будет очень рациональное использование индексов. Они будут маленькие
и соотв. не будел вытеснения индексных страниц из кеша страниц.

Вот. Разделить можно по дате создания бизнес-факта или по другим вризнакам где есть date+time.

Ответ написан более года назад

6 комментариев

Денвер сообщает о нехватке памяти?

mayton2019 @mayton2019

Bigdata Engineer

По поводу data44.csv и прочего.

Обычно разработчики не прогружают файлы целиком в memory. Это опасно.
Файл имеет право во много раз превышать оперативу по размеру. И даже если
тебе кажется что файл (влезет) на глазок, то будучи сериализованным в PHP
array он может иметь накладные расходы.

Для альтернативы var_dump попробуй распечатать его по строкам

while (($data = fgetcsv($file, 15, ";")) !== false) {
    print($data);
}

Ответ написан более года назад

4 комментария

Большое кол-во записей в секунду в MySQL. Как читать последний порядковый номер столбца и добавлять к нему +1 при записи?

mayton2019 @mayton2019

Bigdata Engineer

Обычно при стриминге информации разделяют 2 процесса. Первое - это регистрация
событий с устройств. Это обычно запись в Message Hub, Kafka, RabbitMQ, Apache Pulsar e.t.c.
прочие брокеры или системы которые работают с очередью. Тут - главная задача просто успеть
регистрировать событие. С этим системы очередей справляются отлично.

При регистрации событий никакого синхронизма между устройствами нет и в принципе
не может быть. По законам физики и по часовому времени и по прочим сложным процессам
которые идут в мире. Мы не можем вообще гарантировать точного совпадения часов на всех
устройствах поэтому фактор времени мы пропустим. К свойствам дублирования и грязи в атрибутах
на этом уровне можно относиться очень толерантно и не требовать никакой сложной логики фильтрации.
Если допустим 99.9% событий зашло ровными - оно и ладненько. Дальше почистим.

Дальше идет - процессинг. Вот здесь уже может вступать в игру MySQL сервер с его логикой
транзакций. Счетчиков. Уникальностей. Сурогатных или натуральных ключей. Партишенинга
и прочего. Здесь у вас уже может возникнуть лимит на скорость генерации (inserts) но он будет
мягкий потому что очередь уже смягчает удар.

Если у тебя приложение - тайм-критичное и клиент хочет видеть КАЖДОЕ событие как счетчик
в браузере то здесь тебе скорее всего надо отказаться от MySQL и попробовать что-то другое.
Что - я не знаю. Надо исследовать глубже use-case. Обычно разработка таких систем - это
компромисс между одним и другим. Идеала тут не будет.

Ответ написан более года назад

4 комментария

Как провести миграцию для PK с int на BigInt в MySql 5.7?

mayton2019 @mayton2019

Bigdata Engineer

Можно попробовать почистить таблицу от исторических записей PK и появится свободное место снизу.
Допустим от ID=0 до 1 млрд. И потом потихоньку начать переиспользовать ключи снизу.
Но я не уверен что это работает для авто-инкрементных ключей особенно если уже много логики было
создано. В оракле проще. Есть отдельный объект SEQUENCE и его можно очень быстро пересоздать
или сделать циклическим. Тоесть от 4 млрд он пойдет снова с нуля.

Второй вариант - я-бы сделал копию ID INT с типом ID_BIG BIGINT. Это очень короткая блокировка. Надеюсь быстро.
Потом в фоновом режиме (транзакционном) пообновлял бы все до полного синхронизма. И потом
нужен регламент чтобы дропнуть ID и переделать все констрейнты быстро на ID_BIG.
Тут надо подготовить заране скрипты.

Ответ написан более года назад

2 комментария

Как написать SQL запрос?

mayton2019 @mayton2019

Bigdata Engineer

Более быстрый вариант

SELECT city.name
FROM city 
WHERE city.name 
       IN (SELECT ad_cars.city FROM ad_cars)

Ответ написан более года назад

Комментировать

Как ускорить UPDATE MySQL?

mayton2019 @mayton2019

Bigdata Engineer

Проверте что построен индекс по полю time_last_login

Ответ написан более года назад

2 комментария

Как удалить лишнее с БД mysql имея более 7000 id, которые удалять не надо?

mayton2019 @mayton2019

Bigdata Engineer

Тебе нужно эти id загрузить во временную табличку и сделать этот запрос

delete from tab1 where WHERE guildid not in (select id from temp_table)

Ответ написан более года назад

16 комментариев

Как правильно залить БД?

mayton2019 @mayton2019

Bigdata Engineer

Найди дубликаты в wp_actionscheduler_logs по ключу log_id и поудаляй их.

Ответ написан более года назад

9 комментариев

Как запросить по 2 записи из каждой категории с лучшим рейтингом?

mayton2019 @mayton2019

Bigdata Engineer

Кажется можно решить через оконные функции. Посмотри как тут https://dev.mysql.com/doc/refman/8.0/en/window-fun...

Пригодится RANK или LEAD.

Ответ написан более года назад

1 комментарий

Как скрестить ElasticSearch и MySQL?

mayton2019 @mayton2019

Bigdata Engineer

В этом мало смысла потому как назначение Эластика - это делать быстрый поиск в не-структурированных
(non-structured) данных таких как логи, дампы сетевого трафика или просто месседжи или текст.

Назначение MySQL (процентов 99) это хранение реляционных данных. Тоесть данных где есть нормализация
(1-2-3 НФ).

И где... в какой части вы пересекаетесь - непонятно. Либо неправильно используется MySQL либо не там Эластик.

Ответ написан более года назад

2 комментария

Как выбрать строку по определенному числу?

mayton2019 @mayton2019

Bigdata Engineer

Дружище, data quality у тебя ужасное. Такие данные не должны попадать в реляционную БД.
Лучше их как-то подчистить и нормализовать. И потом и запрос по подчищенным данным пойдет
быстрее и индекс можно построить.

Ответ написан более года назад

Комментировать

Почему строка таблицы mysql выводится 3 раза?

mayton2019 @mayton2019

Bigdata Engineer

Все правильно. Такие данные.

Ответ написан более года назад

Комментировать

Как можно ускорить выполнение SQL запроса?

mayton2019 @mayton2019

Bigdata Engineer

Можно материализовать. Перечислить все комбинации prop_id и создать такое представление

prop_ids | responce
---------|---------
'1,2,3'  | [ { "prod_001" : 200 }, { "prod_333" : 134 } , ..... ]
'2,3,4'  | [.....]

Ответ написан более года назад

4 комментария

Как сделать INSERT в две таблицы в одном запросе?

mayton2019 @mayton2019

Bigdata Engineer

Ты можешь открыть транзакцию и сделать два инсерта в разные таблички. И с точки зрения БД
это будет иметь смысл атомарного действия.

Или ты другое хотел?

Ответ написан более двух лет назад

8 комментариев

Можно ли организовать фильтр/поиск товаров посредством JSON_EXTRACT?

mayton2019 @mayton2019

Bigdata Engineer

Я-бы переделал табличку. Пускай мета-данные по продуктам лежат в виде битовых полей.

create table product(
  ....
  params_group1 BINARY(100),
  params_group2 BINARY(100),
  params_group3 BINARY(100)
)

И дальше булевыми (bitwise) операциями как тут пишут https://dev.mysql.com/doc/refman/8.0/en/bit-functi... делать поиски продуктов по маске свойств.

Ответ написан более двух лет назад

2 комментария

Какой способ хранения и выборки данных предпочтительней?

mayton2019 @mayton2019

Bigdata Engineer

Нужно делать одну таблицу и с ней работать. Самый простой вариант - обычно самый надежный и долговечный.

Игры с разными таблицами - это овер-инжинеринг. И ты зря занимаешся этим потому что в топике совершенно
нет мотивации к этому. Пускай одна таблица работает и если она по каким-то причинам перестанет справлятся
- то тогда можно рассмотреть materialized views, витрины, гиперкубы и прочие технологии. Но пока это
все - не нужно.

Ответ написан более двух лет назад

Комментировать

Как правильно создать БД в одном execute?

mayton2019 @mayton2019 Куратор тега Java

Bigdata Engineer

Обычно БД создается во время процессов CD/CD через технологии liqubase/flyway.
Таблицы тоже. В этом есть смысл потому что БД и таблицы это такие долго-живущие объекты
и кроме того не лежащие в плоскости транзакций. Они - выше транзакций и их надо логически
отделять от прочего java кода. А в java коде - оставить insert/update/delete.

Ответ написан более двух лет назад

5 комментариев

Войдите на сайт