Ответы, понравившиеся пользователю Иван Мельников

Как получить первое non-NULL значение в группе для данного поля?

Akina @Akina

Сетевой и системный админ, SQL-программист.

SELECT DISTINCT 
       client_id,
       FIRST_VALUE(massage) 
           OVER (PARTITION BY client_id 
                 ORDER BY massage IS NULL, dttm) massage
FROM test

Если СУБД не поддерживает прямого ORDER BY massage IS NULL, dttm, то ORDER BY CASE WHEN massage IS NULL THEN 1 ELSE 0 END, dttm.

https://dbfiddle.uk/?rdbms=mysql_8.0&rdbms2=sqlser...

Ответ написан более трёх лет назад

Комментировать

Как в DataFrame сделать вычисляемое поле по условию?

Alexeytur @Alexeytur

df['new'] = df.n / df.m if df.m != 0 else 0

Ответ написан более трёх лет назад

Комментировать

Как перебрать первые 10 строк в DataFrame и увеличить значение в них на 1?

dmshar @dmshar

"Можно ли в Pandas менять значение полей в цикле?" - можно. Но в вопросе, который стоит а заголовке - это не надо.
Мне лень набивать большой ДатаФрейм, поэтому вот вам сокращенный пример. В датафрейме 10 строк, меняем первый столбец в первых пяти строках.

print (df)
df.A.loc[:4]=df.A.loc[:4]+1
print (df)

Датафрейм до манипуляции:

Датафрейм после манипуляции:

Подстроить под свои данные надеюсь сможете сами.

Ответ написан более трёх лет назад

2 комментария

Как убить ошибку Error Code: 1114. The table '...\#sqlc60_9_37' is full?

Ипатьев @ipatiev

Потомок старинного рода Ипатьевых-Колотитьевых

alter table test add key (sec_code, class_code)
и смотреть, уйдёт ли temporary из поля Extra в EXPLAIN

И вообще - в первую очередь смотреть EXPLAIN, а не возиться с этой ерундой.
и убирать using temporary ДО того как временной таблице перестанет хватать места на диске.
Потому что у меня даже и без этой ошибки инфаркт будет, если я увижу такой запрос в продакшен коде.

Ответ написан более трёх лет назад

3 комментария

Почему в документации pandas отсутствует параметр alpha для Series.hist()?

Стефан @MEDIOFF

Python Developer

Читаем буквы из доки

**kwargs
To be passed to the actual plotting function.

А теперь смотрим что возвращает нам Series.hist()

matplotlib.AxesSubplot

А потом заходим в доку matplotlib по axes и видим что принимает конструктор, и о чудо

А так же еще куча других аргументов которые не описаны в доке по Series.hist()

Делаем вывод, что разработчики не скорее не должны описывать функционал за который они не отвечают, графики строит не pandas a matplotlib, вот они и написали за что они конкретно отвечают, а остальное, будь добр милок посмотри сам, ибо за то что они там обновляют и уточняют у себя в matplotlib, мы не отвечаем

Ответ написан более трёх лет назад

Комментировать

В чем принципиальная разница между идентифицирующей и неидентифицирующей связью?

ComodoHacker @ComodoHacker

Идентифицирующая/неидентифицирующая связь это понятия логической модели.
А в физической модели они могут быть реализованы по-разному. Сейчас составные PK уже почти не применяются.

Так что ничто не мешает.

Ответ написан более трёх лет назад

2 комментария

В чем принципиальная разница между идентифицирующей и неидентифицирующей связью?

Vindicar @Vindicar

RTFM!

Ну, положим, они не полностью равносильны.
В Phone_1 id должен быть уникален для каждой записи. Поэтому если ты захочишь переключить запись в Phone_1 с одного Employee на другого, ты точно всегда сможешь это сделать. Это можно интерпретировать как "записи в Phone_1 существуют сами по себе, несмотря на обязательную связь с Employee".
В Phone_2 id должен быть уникален среди записей с одинаковым Employee_id. Т.е. уникальной должна быть их комбинация. При попытке переключения записи в Phone_2 с одного Employee на другого Employee есть риск коллизии по id. Это можно интерпретировать как "записи в Phone_1 существуют строго в контексте Employee, и их собственные id имеют смысл только в контексте, заданном Employee_id". Т.е. Employee_id становится своего рода "пространством имён".

Ответ написан более трёх лет назад

2 комментария

Очень быстро лить в БД 1 млн. строк в секунду и настолько же быстро читать их. Как лучше осуществить?

Александр @ushliy

nix-админ

ИМХО, про Clickhouse незаслуженно забыли, если нужно хранить и какую-то аналитику использовать. А ведь он реально не тормозит, скорость сравнима с простым сбросом сырых логов на диск. Горячие данные на SSD или вовсе в памяти, во временных таблицах можно держать. Главное, батчами вставлять данные, но мелкие вставки ни одна база по моему не любит. Если для гарантированной доставки кафка или кролик будет юзаться - они нативно поддерживаются, но следует учитывать, что дополнительный слой == дополнительные просадки по времени.

если нужно хранить условно за час, то и вовсе стоит смотреть на Aerospike, да и вообще, если этот же час нужно держать в близком доступе, он будет полезен. его незаслуженно мало упоминают в русскоязычном сообществе, а по факту он на голову превосходит всякие редисы, даже бесплатная версия. А также он умеет в постоянное хранение, комбинированное и даже с диском, как с блочным устройством напрямую работать, без ФС

Инфлюкс - он и вовсе про другое, это временные ряды, метрики. Как и Prometheus и Victoriametrics

P.S.: не ради срача и троллинга, но все же староверов, которые в файловой системе хранить все предлагают, мне хочется спросить: Господа хорошие, а вы свои проекты наверно до сих пор храните в виде Новая_Папка, Новая_Папка1, Новая_Папка2 и т.д.? Нужно все таки смотреть на алгоритмы записи, работы с железом и прочее, они меняются и развиваются. Ваш, да и мой тоже 2007 не вернуть

Ответ написан более трёх лет назад

Комментировать

Как модифицировать поиск всех вхождений в строку (re)?

0xD34F @0xD34F

добавить ? после +

Ответ написан более трёх лет назад

Комментировать

Очень быстро лить в БД 1 млн. строк в секунду и настолько же быстро читать их. Как лучше осуществить?

rPman @rPman

лить в таблицу (ticker, price, quantity, oper) ежесекундно ~1 млн. строк

колись, у какого брокера ~~и за какие деньги~~ ты получаешь эти данные такого объема?

Есть данные типа level2/3 (когда вместе с событиями trade тебе льют depth update, изменения в стакане или сами события в стакане, это данные дорогие, доступ на большом рынке тебе дадут только с машины в датацентре брокера, где надо платить еще и дорогую аренду сервера. В мире криптовалют эти данные пока бесплатны, к примеру один binance (крупнейший поставщик биржевых событий, сравним с ними coinbase точнее gdax остальные в сумме наверное от силы столько же дадут) и тот дает порядка 4 тысяч событий в секунду, максимум что я от них видел.

По теме вопроса, всегда, в первую очередь нужно задавать вопрос не как и где хранить данные а как ты их будешь читать. Судя по теме с высокой вероятностью тебе не нужены отдельные случайные события, а нужны данные блоками, на интервале, поэтому и в базе хранить данные лучше этим блоками (вот тут уже надо считать, проводить бенчи на основе твоих данных и твоих мощностей), скорее всего тебе хватит почасовые массивы, тогда при любом запросе потока на момент времени x-y тебе нужно читать минимум две записи, это сотни миллисекунд, плюс фильтрация, на эту уходят десятки миллисекунд даже на php, если в базе данные удобно сериализованы, дольше передавать и обрабатывать будешь.

Голову потока данных (текущая минута-час) храни в локальном кеше бакэнда, в памяти, чтобы эти данные выдавать сразу но маловероятно что тебе это нужно, обычно нужна агрегация а не сырые данные.

Так вот, хранить данные можно буквально в файлах, файловая система - отличная key value база данных (дели по файлам и каталогам на основе валютной пары, биржи, и временного интервала, но на время лучше индекс заводить), работать с такой базой неудобно только при обслуживании (backup/restore) но если изначально организовать хранилище в отдельном разделе, то и работать с ним напрямую.

Одно время я хранил данные в gzip json, но недавно открыл для себя igbinary, чудесная вещь, бинарный при этом тоже пакуется, файлы храни на btrfs со включенным сжатием zstd ultra.

Ответ написан более трёх лет назад

6 комментариев

Очень быстро лить в БД 1 млн. строк в секунду и настолько же быстро читать их. Как лучше осуществить?

Yury093 @Yury093

Конечно может, вопрос в железе. И микроскопом можно забить гвоздь.
Но на слова "хочу быстро вставлять и быстро читать потоком" так и хочется ответить "а зачем тебе БД?"

Поэтому хотелось бы уточнить у автора: а вот кроме описанного "вставить миллион, считать миллион" - что предполагается делать с данными? Менять их построчно? Искать по какому-то ключу? это все надо? Если нет - я бы все же рекомендовал не использовать БД.

Тут следует понимать что любая нормальная БД это [почти] всегда двойная запись на диск: вы пишите в таблицу И в лог базы данных. Именно поэтому файл или Kafka или иной MQ будет всегда быстрее.

Ну а если БД все равно нужно - ну тогда BULK режимы вам в помощь. Обычно они используются для пакетной инициализирующей загрузки. В некоторых БД они на время своей работы могут отключать какие-то фичи или даже логирование в лог транзакций.
----------------------------
Вообще по всем признакам в вашем случае идеальным будет вариант писать в MQ (RabbitMQ или Kafka или см аналоги), а уже из нее в БД. "Все так делают", по крайней мере в крупных компаниях это довольно типовое решение для подобных вашей задач. Причем БД в этой истории нужна только если вам потом нужно хранить и селектить. Если после первой операции данные вам более не нужны, либо нужен только бэкап, то БД не нужна - пишите в файл, пакуйте в zip (в энтерпрайзе - кидайте файлы в Hadoop в каком нибудь Parquet формате).

Ответ написан более трёх лет назад

1 комментарий

Экспорт данных из QUIK по ODBC. Как налету преобразовывать VARCHAR-поля в правильные (DATE, DECIMAL, ENUM)?

Akina @Akina

Сетевой и системный админ, SQL-программист.

В тексте запроса ЛЮБЫЕ данные представлены как их строковые представления. Да что там - сам SQL-запрос есть строковый литерал.

Поэтому следует озаботиться исключительно правильным представлением. Форматом. Если данные - число, то десятичным разделителем должна быть точка. Если это дата или строка - должны присутствовать обрамляющие кавычки, причём дата должна быть в формате, понятном текущей СУБД (предпочтительно YYYY-MM-DD - этот формат понимают все СУБД), а в строке должны быть экранированы все символы, являющиеся служебными. И т.п.

Если выгруженные данные не соответствуют этому формату, то в запросе на добавление можно использовать не напрямую значение (и потом маяться дурью в процедуре/триггере), а, используя встроенные функции, преобразовать данные к правильному типу. Например, если в поле надо вставить число, а в выгрузке использована запятая в качестве разделителя, это будет

INSERT ... VALUES ( ... , CAST(REPLACE(@value, ',', '.') AS DOUBLE), ...

Ответ написан более трёх лет назад

Комментировать

Почему в MySQL8 тип DECIMAL неупакованный?

Rsa97 @Rsa97

Для правильного вопроса надо знать половину ответа

Во-первых, упаковка там несколько другая. Каждые полная девятка цифр занимает четыре байта, неполная меньше (есть таблица). Целая и дробная части упаковываются отдельно. Ваш формат 13,6 должен занимать 7 байт.
https://dev.mysql.com/doc/refman/8.0/en/precision-...

Во-вторых, функция LENGTH принимает на вход строку, так что значение DECIMAL приводится к строке, отсюда и 14 символов.
https://dev.mysql.com/doc/refman/8.0/en/string-fun...

Ответ написан более трёх лет назад

4 комментария

Экспорт данных из QUIK по ODBC. Как налету преобразовывать VARCHAR-поля в правильные (DATE, DECIMAL, ENUM)?

Rsa97 @Rsa97

Для правильного вопроса надо знать половину ответа

Подход абсолютно неграмотный. MySQL при вставке в таблицу (как и при большинстве операций) автоматически приводит данные к нужному типу.
А поля DATA и ENUM вообще всегда передаются как строки, только DATA должно быть в правильном формате, 'YYYY-MM-DD'.

Ответ написан более трёх лет назад

6 комментариев

Какой выбрать способ для работы с QUIK в приложении на Python?

DonStron @DonStron

В случае с ODBC интересует, можно ли как-то автоматизировать процесс присоединения через ODBC к базе данных или же каждый раз нужно выбирать таблицу, нажимать ПКМ и т.д.?

С галочкой "Вывод после создания", которая ставится в настройках вывода по ODBC в таблице - Квик сам начинает пихать данные в базу сразу после запуска Квика. Т.е. настроил один раз и забыл, оно работает и стартует само.
Если не нужен автостарт экспорта в базу, то есть галочка для вывода по требованию: "Вывод при нажатии Ctrl+Shift+O". Просто делаешь активным окно Квика - нажимаешь сочетание клавишь и данные пошли.

Тоже самое есть и у вывода по DDE (старт после запуска), правда чтобы корректно работало, сервер DDE должен быть запущен до запуска Квика. Запуск по сочетанию клавиш тоже есть.
Для минимальной задержки вывода оп DDE в инфофайле квика делают вот такую настройку:

Ещё можно рассмотреть вариант "всё в одном" без квика вообще - это SmartCom у брокера АйТи Инвест. Модуль Питона для подключения есть на гитхабе, но не знаю допилен ли он энтузиастами до конца. Моих навыков в Питоне пока не хватает. Правда смартком с абоненткой ежемесячной, если торговой комиссии набегает меньше, чем стоимость абонентки.

У меня сейчас работает так:
Данные для своих хитрых графиков получаю из Квика по ODBC, питон их обрабатывает и показывает.
Установку базы и настройку вывода делал по этой инструкции. Ставил старые версии, чтобы не разбираться, а то в комментах там жаловались, что настройки в новых изменились.
Для ручной торговли подключен к Квику привод Кускальп по DDE, там руками выставляю приказы.

Когда обкатаю идею и подниму навыки питона, то попробую со всем этим переехать на смартком. А может даже перепишу всё под C#, он стыкуется со смартком без проблем, всё готово. Правда для этого придется изучить C#

Ответ написан более трёх лет назад

1 комментарий

Почему не экранируется символ одинарной кавычки?

Роман Макаров @vollossy

Веб-разработчик с небольшим опытом работы

Потому что то, что вы видите, это не строковое представление для строки(простите за тавтологию), а ее "техническое" представление. Попробуйте сделать
>>> print('"Isn\'t," they said.')
Дело в том, что каждый объект в python может иметь 2 метода: __repr__ и __str__. Первый отвечает за "техническое" представление, которое помогает однозначно идентифицировать объект и используется для отладки и в том числе в REPL, а второй за строковое представление, удобное для чтения человеком. Например, в случае с datetime.date(2021, 6, 1), __repr__ вернет 'datetime.date(2021, 6, 1)', а __str__: '2021-06-01'.

UPD: увидел обсуждение в комментариях касательно ' и "
> Почему в вышеуказанном примере бэкслэш выводится, в примере ниже - нет?

>>> "\"Yes,\" they said."
'"Yes," they said.'

Тут штука в том, что двойные кавычки это что-то вроде синтаксического сахара, который позволяет нам вставлять всякие непечатаемые символы, а также использовать переменные(как f-строки или r-строки). В итоге их отображение все равно приводит их к виду одинарных кавычек с соответствующим форматированием. Для одинарных кавычек обратный слеш при работе с двойными не нужен, поэтому он и не отображается.

Ответ написан более трёх лет назад

2 комментария

Как наложить два списка?

Drill @Drill

d3 = [i2 for i1,i2 in zip(d1,d2) if i1]

Ответ написан более трёх лет назад

Комментировать

Как наложить два списка?

Алан Гибизов @phaggi Куратор тега Python

лужу, паяю, ЭВМы починяю

d1 = [1, 0, 1, 0]
d2 = ['qwe', 'asd', 'zxc', 'wer']
print([d2[i] for i, _ in enumerate(d2) if d1[i]])

Ответ написан более трёх лет назад

2 комментария

Как наложить два списка?

aRegius @aRegius

Python Enthusiast

itertools.compress

d3 = list(compress(d2, d1))

Ответ написан более трёх лет назад

Комментировать

Как наложить два списка?

shurshur @shurshur

Сисадмин, просто сисадмин...

d1 = [1, 0, 1, 0]
d2 = ['qwe', 'asd', 'zxc', 'wer']

d3 = [x[1] for x in filter(lambda x:x[0] == 1, zip(d1, d2))]

print (d3)

Ещё короче:

d3 = [d2[i] for i in range(0,len(d1)) if d1[i] == 1]

Ответ написан более трёх лет назад

4 комментария

Войдите на сайт