Ответы пользователя batyrmastyr

Хочется свой WKWebview вместо системного - какие реализации посоветуете?

batyrmastyr @batyrmastyr

Приложения с альтернативными движками можно распространять только в ЕС и только после аттестации которую ещё попробуй пройти.

Например, в требованиях по безопасности есть «Use memory-safe programming languages, or features that improve memory safety within other languages». Кажется на этом пункте отсекаются все движки, кроме Firefox.

Ответ написан 08 мая

Комментировать

Как лучше всего мониторить даты ввода дома в эксплуатацию?

batyrmastyr @batyrmastyr

1.
По состоянию на 3 года назад:
- Недокументированное API Росреестра (rosreestr.ru/api/online) отдавало устаревшие (~2020 года) данные.
- API Публичной кадастровой карты - активно борется с парсерами, нужно знать кадастровый номер дома
- Сторонние сервисы, которые ходят в предыдущее API и отдают данные не ставя палки в колёса.
Во всех них максимум получишь «дату постановки на учёт», не уверен, что она достаточно близка к вводу в эскплуатацию.

- Документированное "API прямого доступа" доступно только застройщикам и подобной крупной рыбе.
- Платные запросы выписки по дому через госуслуги.
Тут ничего не скажу - под требования первого не подходили, непонятки с ценой и замороченность API, а на второй перейти не успели т.к. я сменил работу.

2. Даты, как уже ответили в комментарии, только через https://наш.дом.рф — нужно мониторить появление дома в поиске по сданным домам. Даты в интерфейсе берутся от застройщиков, но она пишется на глазок "примерно в том квартале".
Если устроит год сдачи уже построенных домов, то
- ГИС ЖКХ, в нём "реестр объектов жилого фонда" https://dom.gosuslugi.ru/#!/houses — в "паспорте дома" видите такое
- Фонд развития территорий, как пример

Ответ написан более года назад

Комментировать

Как ускорить поиск по бд MySQL?

batyrmastyr @batyrmastyr

Сымитируйте ваши 100500 категорий.
Если нужно ускорять, то вас спасёт денормализация: в дополнение к идентификатору текущей категории (category_id) у товаров появятся идентификаторы категорий высоких уровней (category_level1_id, category_level2_id, category_level3_id) и на первых уровнях фильтровать по выделенным столбцам.

Цена: усложнение логики, новые индексы, нужно периодически запускать скрипт исправляющий значения в новых колонках после перетасовки категорий.

Ответ написан более года назад

Комментировать

Как лучше всего организовать очистку файла журнала в PostgreSQL?

batyrmastyr @batyrmastyr

1) Как советует Александ Путров, классический путь: интересующие события пишите в таблицу.
2) Если нужны уведомления подписчиков, то ставите Supabase Realtime. Это отдельный сервис который прикидывается репликой постгреса и рассылает уведомления клиентам.

поэтому варианта очистки лог-файла через PostgreSQL я не нашел

Это вредная идея уровня «мне сборщик мусора в JAVA не даёт сразу очистить мусор, я хочу подключаться из другого процесса и делать очистку сам», никогда так не делайте.

Ответ написан более двух лет назад

Комментировать

Можно ли организовать фильтр/поиск товаров посредством JSON_EXTRACT?

batyrmastyr @batyrmastyr

Сделать можно, но здесь вас ждёт множество граблей:
1. Крайне неэффективное хранение: объём в разы больше, чем если раскидать по таблицам.
2. Эффективность индексов по JSON полю: если в постгресе она не особо радует, но можно выбирать между простотой и скоростью работы, то в мускуле есть только убогие костыли с индексированием частей объекта через генерируемые столбцы.
3. OR = JSON_OVERLAPS, IN = JSON_CONTAINS или разворачивать вручную. И чёрт знает, сработает ли индекс потому, что это функции, а не операторы.
4. Типизация значений: в JSON можно пихнуть и '3', и 3 и 3.0. Нужно внимательно следить за типами и при сохранении, и при поиске, чтобы всё правильно находилось.

В общем, если хотите навернуть такое, то стоит крепко задуматься о переходе на постгрес, в нём хотя бы 2 и 3 проблемы не будут выглядеть неразрешимыми.

Ответ написан более двух лет назад

Комментировать

Ошибка trying to access array offset on value of type null in?

batyrmastyr @batyrmastyr

Isset, причём в форме

$options = $this->tree["main"]["home"]["options"] ?? $this->tree["main"]["options"] ?? $this->tree["all"]["options"];

Но сперва прикинуть какой из уровней оказывается null вместо массива: $this->tree["main"]["home"], $this->tree["main"] или $this->tree и насколько такая ситуация нормальна?

Ответ написан более двух лет назад

2 комментария

Какой стэк использовать для быстрого доступа данных?

batyrmastyr @batyrmastyr

1) > чтобы хранить весь массив данных в виде json
JSON уже давно можно хранить в самом MySQL, если вам нужно произвольное число параметров, но значения их скалярные. Для индексации - виртуальные колонки и индексы по ним.
Если хочется найти искать «1» в массиве [1, 2,5], то вам в PostgreSQL.
2) «Полнотекстовый поиск» — что вы от него хотите? Если вам нужно точное совпадение, только быстрее, то берите что угодно.
Если вам нужен учёт словоформ, то он есть как минимум в Монге, Эластик, Постгрес, Сфинкс/Мантикора.
Если вы хотите больше контроля (поиск с учётом особенностей > 1 языка, тюнинг морфологии, какое-то ранжирование), то выкидываем Монгу (нет тюнинга морфологии и ранжирования, а на каждый язык нужно вешать отдельный индекс).
Если вы и ранжирование хотите тюнить (вплоть до простенького машинного обучения) и вообще максимальную скорость поиска, то вас спасёт только Мантикора/Сфинкс, всё остальные грустно глотают пыль.

Но золотая середина - Постгрес. На него довольно легко перекатиться и он избавляет от необходимости разводить NoSQL зоопарк.
P.S. И забудьте про монгу, Постгрес лучше неё почти по всем параметрам.

Ответ написан более трёх лет назад

Комментировать

Какие есть вариант ускорить работу Докера на Macbook?

batyrmastyr @batyrmastyr

Кратко: запускать под линуксом.
Подробнее: виртуалка на ваш вкус, в ней линукс на выбор, в нём докер. Получите просадку по скорости раза в 1,5 - 2, но (1) это всё равно на порядок лучше говна с названием "докер для мака" (2) грузит проц только когда нужно, а не перманентные 100% на одно из ядер.
Особенности:
1. код прокидываете через общую папку.
Проблемы с пробросом папок:
1. Поскольку виртуалки делают это как сетевых дисков, отслеживание изменений файлов (gulp/webpack/esbuild - watch) отвалится наглухо.
2. PostgreSQL не сможет стартов стартует, поэтому файлы БД лежат только внутри линукса.
3. С Virtual Box были ещё какие-то грабли из-за прав на файлы. Кажется получалось так, что читает он их нормально, а вот создаваться из под докера они не создаются.
Комбинация из Parallels Desktop 12 (да, давно я его честно купил) и Debian 10 завелась, но пришлось искать инструкцию по установке свежих дополнений/драйверов гостевой ОС. С актуальным Parallels дополнения должны поставиться без приседаний..

Ответ написан более трёх лет назад

Комментировать

Является ли порочной практика итеративных попыток сдачи тестировщикам сырых результатов работы?

batyrmastyr @batyrmastyr

Ваш вопрос стоит поделить на две части.
1. Итеративная сдача и проверка тестировщиком сама по себе порочной не является, если программисты говорят "часть страницы входа готова (вывожу поля почта и пароль, проверяю пока только что они не пустые, и почта похожа на почту, а проверку по базе ещё не делаю)" или "исправил падение если в почту вбить 1@1@localhost" и тестировщик проверяет, что заявленное сделано как надо + выборочно проверяет, что не сломано то, что работало на предыдущей итерации. Если исправить нужно 10 ошибок, а его после каждой заставляют проверять всё, то нужно давать таким свинтусам по шее.
2. Подход "сделаем какую-то чушь, пусть наша нянька для даунов (тестировщик) разбирается" абсолютно порочен.
В вашей ситуации, видимо, проще повысить тестировщика до тестировщика-аналитика: сперва отдаёте ТЗ ему, он пишет тестовый план и в процессе уточняет ТЗ с его автором, берёт с кодеров подписку, что им всё понятно, и только потом они идут кодить.

Ответ написан более трёх лет назад

1 комментарий

Стоит ли изучать PHP на Metanit?

batyrmastyr @batyrmastyr

Не стоит, это кривое обновление какого-то самоучителя из нулевых.
Примеры из «руководства по php 8»
1. Установка: «качаем пыху под винду, ставим апач». Зачем апач в 2021 году, если примитивный веб-сервер встроили несколько лет назад?
2. Константы

А теперь смотрим на изменения в PHP 8:

Возможность определять константы без учёта регистра была удалена. Третий аргумент define() больше не может быть true.

3. Под видом «предопределённых констант» подсовывают неполный список «магических констант», потеряли ::class которому уже лет 8.

В целом, как уже сказал FanatPHP, там слишком много примеров того «норм из нулевых», но сейчас за такое бьют линейкой по рукам.

Ответ написан более трёх лет назад

Комментировать

Как правильно работать с большим количеством данных?

batyrmastyr @batyrmastyr

- получение данных об общем количестве записей для построения пагинации, это SELECT count(id)

1. count(*), а не count(id)
2. если вас не сильно интересует абсолютно точное значение для миллионов результатов, то делаете оценку количества, начать проще с EXPLAIN <текст запроса> вы можете получить оценку количества результатов. Мы для себя решили, что если по оценке меньше 50 000 строк, то вслед за этим делаем обычный SELECT count(*) для получения точного количества.

Потом дергается запрос для получения данных на экспорт

1. Пожалуй, вам от этого нужно избавляться в первую очередь. Нажал человек на кнопку "экспортировать" - экспортируете, а до этого и дёргаться нет смысла. Фильтры можно получить либо при клике, либо из заголовка referer
2. Если вам нужно абсолютно все данные, то ставите задание на экспорт в очередь и выполняете его в отдельном процессе, сохраняете в файл. Для пользователя рисуете прогресс выполнения и выводите его в нажатую пользователем кнопку, хотя можно тупо на отдельной странице выводить список "заказанных" выгрузок и ссылки на скачивание.

Запросы на каждый выпадающий список в фильтрах - SELECT distinct field_name

Можно с какой-то периодичностью выгружать выхлоп таких запросов в материализованное представление / справочную таблицу / ENUM. Для обновления таких справочников "в реальном времени" можно повесить триггер на вставку в основную таблицу который будет делать INSERT INTO dictionary (value, column_oid) ON CONFLICT / ALTER TYPE ADD VALUE IF NOT EXISTS
После чего в основной таблице заводите рядом поле под идентификатор в справочнике и индексируете уже его.

Запрос при фильтрации и сортировке - SELECT * FROM some_table WHERE field_name LIKE '%value%'

1. если у вас значения длинные (от 8 - 10 символов), то стоит попробовать триграммные индексы. Но на коротких значениях они могут замедлить поиск раза в полтора-два.
2. Полнотекстовый поиск. В частности есть поиск лексемы по префиксу ts_tsquery('сло:*') (быстро найдёт и "слово" и "словарь", но не найдёт "однословное")
3. Для полей по которым вы сделаете словари лучше делать поиск через словарь SELECT * FROM table WHERE column_dictionary_id IN (SELECT id FROM dictionary WHERE value LIKE '%текст%'). В словаре у вас наверняка на порядок - три меньше значений, а несколько сотен или тысяч значений в IN постгрес нормально пережуёт.

Полей много, разные даты, guid, названия проектов, данные из поля типа json, цены.

Активнее используйте функциональные и частичные индексы.
Например, у нас есть кадастровые номера. Триграммный индекс по ним весит 56 мбайт, а BTREE по номерам урезанным до кадастровых кварталов - 15 мбайт, в поиске к "cadastre_id LIKE '11:22:333333:1%'" добавился "AND to_quarter(cadastre_id) = '11:22:333333'", но сам поиск получается на порядок быстрее (~5 мсек вместо 50 - 70).
Главное не забывайте о стоимости этих самых функций - индекс по to_quarter может строиться всего в 1,5 раза дольше нефункционального, если делать LEFT(cadastre, -(position(':' IN reverse(cadastre))), а может и в 100 раз, если использовать регулярку.

На все индексы не поставишь, тем более что один индекс может добавить гигов 5-10 к весу.

Если ещё не обновились, то обновляйтесь на 13-ю версию, там размер BTREE индексов уменьшили в 3 раза. Ну и посмотрите, возможно вам где-то нужны GIST, GIN или BRIN индексы.

Ответ написан более трёх лет назад

2 комментария

Как преобразовать HTML, JS, CSS в EXE?

batyrmastyr @batyrmastyr

Если что-то совсем одностраничное, то «сохранить как - mht» в браузере.
Если покрупнее - то перегнать в chm через htm2chm. Не факт, что вытянет свежий js, но лучше начать с этого, чтобы не тащить 300 метров электрона.

Ответ написан более трёх лет назад

Комментировать

Интеграция php с Excel-макросом?

batyrmastyr @batyrmastyr

1. В сам макрос добавить отправку данных в ваше приложение.
1б. Если не всем пользователям макроса можно доверять, то вместо отправки из макроса можно выдавать результат работы макроса в JSON, который пользователь сам вставит на сайте.
2. О том, как мы на PHP запускали настоящий MS Excel ...
3. Воспользоваться libXL, но она на C++ и обёрток для php вроде бы нет.
4. Вместо рецепта из варианта 2 можно использовать OLE и из под винды запускать специальный скрипт на php и управлять Экселем.

Ответ написан более трёх лет назад

Комментировать

Как узнать высоту всплывающей клавиатуры на мобильных устройствах в браузере (ios)?

batyrmastyr @batyrmastyr

Попоробуйте использовать VisualViewport - работает начиная с iOS 13, показывает высоты за вычетом высоты клавиатуры.

Ответ написан более трёх лет назад

1 комментарий

С помощью каких яп в 2020 делают браузерные игры?

batyrmastyr @batyrmastyr

С помощью любых транслируемых в WebAssembly, например Unreal Engine уже года три назад добавили поддержку работы в браузерах.

Ответ написан более трёх лет назад

Комментировать

Как правильно реализовать ТОП дня, недели, месяца?

batyrmastyr @batyrmastyr

1. Вместо top_[daily|weekly|monthly] можно завести общую таблицу top со столбцом для признака, что это дневной/недельный/месячный рейтинг.
2. Обновлять данные в ней раз в день/час.
3. В транзакции удаляете старые записи и делаете Insert into (select ..., ‘daily’ as type
INION select ..., ‘weekly’ as type
INION select ..., ‘montly’ as type
).
При желании можно суточный рейтинг обновлять раз в час, а недельный и месячный раз в сутки.

Когда rating_log слишком распухнет, можно будет:
1) секционировать её по времени. Либо встроенными средствами БД, либо вручную перенося старые записи в таблицу-архив.
2) Воспользоваться более специализированными решениями: расширение timescaleDb для PostgreSQL или колоночную базу типа ClickHouse. Но оба варианта требуют тестирования перед использованием: например, оба не очень любят работу со строками, а Кликхаус предпочитает, чтобы данные вставляли пачками, а не построчно.

Ответ написан более трёх лет назад

Комментировать

Старт проекта на NodeJS+MongoDB или PHP+MySQL?

batyrmastyr @batyrmastyr

Независимо от выбора БД, отделять комментарии от расписаний нужно обязательно и каждый комментарий хранить отдельным документом/строкой. Так вы сможете забирать из базы не всю гипотетическую тысячу сообщений, а только новые.

Для сообщений в реальном времени: а правда ли вам нужно оно нужно или устроит задержка в 1 - 5 секунд? Если нужно, то стоит посмотреть на модуль HTTP Push Stream для nginx.

В 2020 чистый JavaScript только для «хренак-хренак и в продакшен» пригоден. Если и выбирать, то между TypeScript / Dart / PHP.

1) Типизация: PHP / TS / Dart
2) По скорости: для сайтов с < 200 000 просмотров в сутки даже на классическом php-fpm хватит пары ядер. Но если хочется «чтобы не хуже ноды», то смотрите в сторону swoole, roadrunner, amp и workerman с phpsocket.io.
3) Возможность писать клиентский и серверный код на одном языке: JavaScript / TypeScript / Dart.

В роли базы данных лучше возьмите постгрес - он лучше монги почти всем параметрам (скорость почти любых запросов, потребление памяти), только сложные запросы по json у него выглядят, кхм, страшненько. Но уж лучше страшные запросы, чем отдавать монге от 1 гига до 50% оперативки, строить индексы на все подряд поля и несмотря на это терпеть её тормоза.

Ответ написан более трёх лет назад

4 комментария

Какие есть альтернативы google аккаунту для хранения контактов?

batyrmastyr @batyrmastyr

Да тот же Яндекс или можете поднять свой сервер с поддержкой CardDAV .

Ответ написан более трёх лет назад

Комментировать

Как организовать пагинацию, если БД и поисковая машина - это раздельные сервисы?

batyrmastyr @batyrmastyr

1. Попробуйте искать целиком в сфинксе используя распределённые индексы.
index rss {
type = distributed
agent_persistent = 127.0.0.1:9312:rss1
...
agent_persistent = 127.0.0.1:9312:rssN
agent_persistent = 127.0.0.1:9312:rssUpdates
}
В первые N частей закидываете все документы более-менее равномерно их распределив, например, по датам создания или номерам и индексируете редко, раз в сутки или неделю.
В последний rssUpdates выбираете только документы изменившиеся с последней индексации, прописываете sql_query_killlist чтобы исключить из результатов устаревшие копии документов из других индексов.

2.1. Точное число результатов довольно быстро можно узнать так из SHOW META:
"SELECT ... WHERE <условия без сортировки> LIMIT 1; SHOW META like 'total_found';" и смотрите результат второго запроса.

2.2 Дальше делаете "честные запросы" - фильтрацию, сортировки для получения нужной страницы, но с указанием max_matches: "SELECT .. WHERE ... LIMIT ... OPTION max_matches=страница * размер страницы". В типичной ситуации, когда пользователь угомонится на первых страницах, скорость значительно увеличится.

3. В третьем сфинксе появился CREATE INDEX для обычных, не текстовых, столбцов. Может помочь.

4. В Постгресе сейчас есть "обёртка сторонних данных" и через неё можно стучаться, например, к mysql. К Сфинксу стучаться не пробовал, но стоит попробовать схему "данные в постгресе, полнотекстовый индекс из сфинкса подключаем через JOIN".

Ответ написан более трёх лет назад

Комментировать

Youtube data API: что за глюк с поиском видео?

batyrmastyr @batyrmastyr

Не знаю как в действительности устроен поиск в ютубе, но вот несколько возможных причин:
1) подстрока «пе» нашлась в полном описании видео или распознанной речи, при этом там не было подстроки «пер».
2) довольно типичное решение при полнотекстовом поиске - нормализация слов - лемматизация, стемминг, исправление опечаток и замена сокращений полными словами. Не исключено, что «пер» в их словаре оказался сокращением от «переулок», «перевод» или любого другого.
3) исключение из поиска предлогов.
4) исключение из поиска коротких слов, если они ни у кого не встречаются и для них нет нормальной формы.

Ответ написан более трёх лет назад

1 комментарий

Войдите на сайт