Ответы пользователя rPman — Хабр Q&A

Задать вопрос

Ответы

Какую БД выбрать для парсинга на питоне и использовании в app на котлине?

rPman @rPman

sqlite
считай это отраслевой стандарт идеальный для мобильных пользователей

правильно конечно нужно продумать что именно будет происходить с данными, но как я понимаю - они только на чтение, то sqlite идеальный вариант по всем параметрам

Ответ написан более трёх лет назад

10 комментариев

10 комментариев
Как загрузить большой датасет в память сервера (+ пара сопутсвующих проблем)?

rPman @rPman

Извиняюсь за неекропост

4000 колонок * 20кк строк * 1 байт значение (даже не надо в биты упаковывать, та ккак у вас 4 варианта значений)
это 80,000,000,000 байт, т.е. считанные 80 гигабайт данных в виде матрицы

какого вида нужна обработка? с линейным чтением справится просто массив

Ответ написан более трёх лет назад

Комментировать

Комментировать
Какие есть программы для создания графического интерфейса с возможностью кодинга?

rPman @rPman

Если убрать из требований python

Я рекомендую для начинающего программиста баз данных лучше брать то что не потребует изучать лишнего, и использовать инструменты microsoft visual studio и его фреймворк, например winforms

Microsoft Visual Studio это шикарный инструмент разработки простых интерфейсов (в мышевозекательном стиле WYSIWYG) и мне кажется до сих пор непревзойденный именно для новичков (но повторюсь, мне кажется в последних версиях что то сломали в идеологии)

p.s. питон поддерживается студией так же никто не мешает интерфейс разрабатывать отдельно от расчетной части которая на питоне, ее можно вызывать просто как приложение, указывая что нужно сделать - в качестве параметров или в файле

Ответ написан более трёх лет назад

3 комментария

3 комментария
Порекомендуйте подходящую базу данных?

rPman @rPman

которые при генерации отчета как либо аггрегируются.
это чуть ли не наисложнейшая задача для баз данных, 80м записей тем более

Партицируйте прямо по суткам.

Убирайте транзакции, нафиг вам тут innodb когда хватит myisam, оно на запись быстрее, у вас база write once read ... тоже once.

У вас там база данных упирается случайно не в работу с диском? в облаке можно взять несколько дисков, они будут независимыми, раскидай по ним таблицы (myisam штатно поддерживает симлинки), что может дать прирост в скорости в разы только за счет этого, даже если они ssd, например отделить хранение индексов от данных или отделить старые данные от сегодняшних.

На время обработки аналитики можно потюнить файловую систему и отключить flush для файлов таблиц (например ext4 data writeback и можно отключить журнал) - сильно ускоряет именно запись, особенно если много ram, это включает большой риск потери/порчи данных при сбросе ос но с другой стороны вероятность этого очень мала и как я понимаю, данные в базу и так пишутся из какого то другого хранилища, т.е. при проблеме с сервером просто перезапускается обработка за текущие сутки.

Уберите индексы на запись, все, сначала пусть идет вставка данных без их индексации, затем создаете индекс (это на порядок быстрее) и уже потом строите аналитику.

Общая аналитика должна не работать с самими данными, а с их посуточной выжимкой (возможно в результате и хранить их не придется) считай это самодельные индексы. Грубо говоря если в запросе на аналитику стоит count,max,min,.. то достаточно сложить посуточные значения и для глобальных считать уже по ним... само собой если запросы с условиями и сложными группировками, то надо думать но все решаемо.. грубый пример нужно считать агрегацию по часам, вот в индексы и пиши суточные значения по часам, а если надо постранично то для каждой страницы для каждых суток считаешь, потом агрегируешь уже по этим результатам.

Ответ написан более трёх лет назад

6 комментариев

6 комментариев
Есть ли локальные базы данных с поддержкой многопоточности?

rPman @rPman

Что значит поддержка многопоточности?

в тегах sqlite, вот вам поддержка, правда режим включается/выключается только на этапе компиляции библиотеки и по факту это синхронизации при работе с экземплярами объекта базы данных из разных потоков (а это накладные расходы)

p.s. если речь про ускорение за счет многопоточности - не уверен что существующие базы данных умеют занимать несколько ядер процессора по обработке одного запроса

Ответ написан более трёх лет назад

2 комментария

2 комментария
Возможно ли сделать скраппинг информации с сайта, на котором требуется авторизация с помощью расширения браузера (chrome)?

rPman @rPman

Интерфейс расширений браузера это тоже html со своим dom, а значит с ним можно взаимодействовать.

Уязвимые расширения используют не свою отдельную страницу с адресом chrome-extension:// а просто добавляют dom элементы на страницу, с такими тем более просто.

средства автоматизации браузеров позволяют работать в т.ч. с расширениями, например selenium, гуглить extension automation selenium

Ответ написан более трёх лет назад

Комментировать

Комментировать
Можно ли использовать модуль вместо возведения в квадрат в функции стоимости?

rPman @rPman

можно но может хуже работать, все зависит от данных и задачи, наверное экспериментально только понять можно будет

Ответ написан более трёх лет назад

Комментировать

Комментировать
Какой язык выбрать для веб-приложения для работы с БД?

rPman @rPman

Выбирать веб - это хардкор путь, слишком много лишнего придется изучить.

Я рекомендую для начинающего программиста баз данных лучше брать то что не потребует изучать лишнего, и использовать инструменты microsoft visual studio и его фреймворк, например winforms

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как спарсить название и цену игры в стиме?

rPman @rPman

Зачем столько гемороя если есть официальное api?
api.steampowered.com/ISteamApps/GetAppList/v0001 - список всех приложений
store.steampowered.com/api/appdetails?appids=43864... - информация о приложении appids, код страны из которой запрос - cc
цены в центах [App Id] > data > price_overview
(взял это отсюда)

По уму документация тут, ллидербоард тут

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как открыть Excel с сохранением данных?

rPman @rPman

совет, не открывать csv файлы нажав enter, а поставив курсор на начальную ячейку куда нужна таблица, выбирать меню данные - из файла, откроется красивый мастер, позволяющий указать все настройки импорта, и кодировку, и типы значений в колонках (text гарантированно оградит от проблем с переконвертацией)

p.s. альтернативный офис libre office calc при попытке открыть csv файл выдает этот мастер по умолчанию

Ответ написан более трёх лет назад

Комментировать

Комментировать
Биос не видит SSD NVMe SSD Samsung 980 PRO на 500GB. Что делать?

rPman @rPman

Во время установки операционной системы диск виден? т.е. winpe драйвера на него находят?

Если да, то купи самый дешевый sata диск (скорее всего это будет 64гб ssd или даже флешка переросток) и установи загрузочную часто операционной системы на него и в boot.ini пропишешь уже нормальное размещение диска.
С большими шансами это можно провернуть даже просто с флешкой или картой памяти если есть картридер, в биосе выставишь загружаться с нее, можно даже grub туда впихнуть.

Ответ написан более трёх лет назад

5 комментариев

5 комментариев
С помощью какой программы можно делать звонки, в течение которых будет бесперебойная связь 3-4 часа?

rPman @rPman

Стабильность интернет подключения - ахиллесова пята любого существующего месседженера, если разрыв связи будет длиться дольше десятка другого секунд - звонок оборвется, без вариантов

До покупки скайпа майкрософтом - это был лучший аудио-видео чат, способный удерживать подключение даже если прямые способы становятся недоступны (отлично помню как при окончании денег на счете тогда еще домосетки, скайп продолжал работать, найдя в локальной сети другой запущенный клиент скайпа и подключившись через него). К сожалению этот великий софт был уничтожен и вернуть его не представляется возможным.

Я настоятельно рекомендую обратить внимание на webrtc веб чаты, работающие без сервера (точнее отправляющие трафик напрямую между клиентами, если это возможно), готовая опенсорс инфраструктура доступна к примеру у jitsi

Формально, приложение для аудио видео чата на основе браузера и webrtc это несколько десятков строчек кода (чуть сложнее утилиты для обеспечения подключения когда все клиенты за nat, но все есть в опенсорсе), за все отвечает браузер. Попробуй talky.io простенький audio/video чат, работает шокирующе хорошо (понятно дизайн аляповатый, это просто пример приложения), т.е. написать свой чат со своей логикой поведения при разрыве связи - не большая проблема

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как сделать полный бэкап системы (Linux) rsync или tar?

rPman @rPman

Итак, первое и главное - способ, формат и время создания резервной копии должна определяться теми методами, которыми этот бакап будет восстанавливаться.

(если используются виртуальные машины, посмотри, возможно инструменты, встроенные в гипервизор содержат уже ответ. Например если не используются снапшоты, то резервная копия базы данных - это копия файлов-контейнеров ее дисков)

Второе, способов создания резервной копии операционной системы - огромное количество, каждый из них отличается удобством как создания копии так ее восстановления, и плюсы не всегда сочетаются с минусами.

Резервная копия на уровне файлов это rsync или tar, позволяет управлять что копировать а что пропускать на уровне файлов, но самая медленная из возможных. Помним, если в файлы идет запись то нормально резервную копию можно делать только из снапшота или выключив машину. Для восстановления такой метод требует наибольшее количество телодвижений, но как один из шагов - вполне допускается

Резервная копия на уровне блочных устройств:
* как уже сказал, если виртуальная машина использует файлы для хранения образов дисков - можно просто их копировать (отключив или приостановив ее само собой, либо используя снапшоты гипервизора)
* можно копировать диски изнутри из гостевой системы ее средствами, в этом случае можно использовать ее технологии снапшотов
Например в linux при использовании btrfs можно моментально создать снапшот и получить в виде файла (потоком) разницу между этим снапшотом и предыдущим, хранить их а потом эти инкрементальные копии применить последовательно для другой стартовой копии диска (так можно делать начиная с пустого диска)

Важный момент, для получения гарантий, базы данных лучше либо останавливать на время создания копии либо делать резервное копирование уже ее средствами, иначе вероятность проблем во время их восстановления будет не нулевая.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Почему значение даты на php записывается задом на перёд, какие исторический предпосылки обусловили этот феномен?

rPman @rPman

Потому что это стандарт ISO 8601 (формат в date символом 'c'), основной принцип слева направо от наиболее значимой (длительной) части к более короткой

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как узнать что на youtube канале началась прямая трансляция?

rPman @rPman

настраиваешь свой сервер, который будет обрабатывать push notification запросы от гугла
https://developers.google.com/youtube/v3/guides/pu...

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как сменить значение value в DOM?

rPman @rPman

разный тип инпута свой метод
смотри .val(...) для text
или .prop('checked',true/false)) для input/radio

Ответ написан более трёх лет назад

Комментировать

Комментировать
Какой алгоритм оптимизации выбрать?

rPman @rPman

В общем случае гуглить - многомерная оптимизация (у тебя всего 4 показателя да еще и значения на известных границах - лафа, это визуализировать проще)

Если собираемые показания с шумом, то с ними бороться можно только повышением количества сбора показаний (вычислений)

Процесс творческий.

К сожалению не существует универсального алгоритма, выше автор дал скрин (срез по 3 показателям, мог бы цветом четвертый визуализировать) очень неудачная функция, большое плато искать на нем минимум - грустно, и все способы крутятся вокруг поиска дополнительной информации о функции.

Как вариант можно попробовать поискать способ упрощения (ускорения вычислений), но это зависит от них самих, например если итоговое значение функции - сумма большого количества внутренних непоследовательных шагов, которые можно пропускать или менять порядок, то можно в качестве промежуточных результатов использовать приблизительное решение, использующее меньшее количество этих шагов, выбранных случайно, а точнее таким способом, чтобы среднее отличие этой упрощенной оценки не отличалось от настоящей.

Так же можно изучать изменение этих промежуточных шагов, из которых вычисляется итоговое значение, как их значение меняется от изменения критериев по отдельности.

Один из простых методов многомерной оптимизации состоит в построении матрицы якобиана, вычисления производной по изменению каждого критерия на минимальный шаг, так вот такую же матрицу можно строить и по этим внутренним шагам, они покажут какой именно критерий в каком случае имеет большее значение а значит его изменение будет иметь большее значение чем пытаться полностью пересчитывать для функцию для каждого критерия

p.s. можно к функции добавить усложнение, которое ведет себя более ярко выраженно в исследуемых точках, грубо говоря 1/(f(x)-a) будет сильнее меняться для значений первоначальной функции рядом с точкой a (осторожно с делением на 0, в этой точке такой подход даст неопределенный результат и для него может понадобиться пересчет), т.е. там где сама функция похоже на плато, возведением в отрицательную степень максимизирует незначительные движения и может помочь найти разницу

upd. посмотри weka, фреймворк написан на java, есть gui, как для выбора алгоритмов так и по визуализации (слабоват), как отправная точка для поиска алгоритмов чтобы и и посмотреть что есть и попробовать, что не понятно, вбиваешь название алгоритма в гугл и ищешь подробности

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как найти причину пропадания сети в Debian 11?

rPman @rPman

нет ли в сети устройства которое может получить тот же ip адрес? например статически настроенный ip? типичный пример - другое устройство получает этот ip, пинги ходят теперь туда до окончания времени жизни адреса, потом роутер выдает новый (ведь у ноутбука сети нет и он запрашивает новый) и снова все работает до следующего неудачного стечения обстоятельств

Ответ написан более трёх лет назад

5 комментариев

5 комментариев
Почему смартфон не подключается к Wi-Fi роутеру?

rPman @rPman

Что случилось вчера, после чего начались такие проблемы? в подавляющем большинстве случаев решение будет найдено если понять первопричину.

Если машина устройство не может получить ответ по dhcp но работает при указании ip вручную, то единственное логичное объяснение - в сети есть устройство с таким же mac адресом

Правда скорее всего причина в чем то другом, например подключаешься не к тому роутеру или настройка на роутере была для данного устройства на фиксированный ip адрес, совпадающей с другим устройством в сети

Ответ написан более трёх лет назад

3 комментария

3 комментария
Канал с нуля или продолжение?

rPman @rPman

Есть мнение что не нужно смешивать в одном аккаунте деятельность пользователя и бизнес (любой, в т.ч. видеоблогинг)

Причина банальна - управление рисками, ты ведя блог или твои недоброжелатели, будете создавать спорные ситуации, из-за которых рано или поздно твой аккаунт заблокируют, а помятуя, как быстро работает поддержка гугла и аналогичным ей компаниям, даже скорейшее решение проблем за пару недель могут создать тебе огромное количество гемороя.

Ты готов на неделю лишиться доступа к контактам на своем телефоне? доступ к гуглдиск? просмотру youtube и всех его фишек с избранными, лайками и подписками? всего на неделю, не больше (сарказм)

p.s. а еще передать доступ к аккаунту, на котором исключительно твой видеоблог без лишнего, проще будет передать другому человеку (продажа например, мало ли)

p.p.s. можно еще потрудиться и поиграть в анонима, постараться максимально отделить рабочий аккаунт от личного (например заходить на рабочий аккаунт только с помощью прокси сервера на специально выделенном профиле браузера, а включив параноика, не на google chrome), делать все чтобы нельзя было навести связей между ними, а для оплаты пользоваться виртуальными картами и не своей личностью (мама, папа, брат, сестра, жена, муж, подруга, друг,...) включая отдельной симкартой и другими аккаунтами (почта, соц сети и прочее прочее)

так как робот в гугле может при сильной обиде забанить все твои аккаунты веером

Ответ написан более трёх лет назад

Комментировать

Комментировать

Самые активные сегодня

Drno
- 3 ответа
- 0 вопросов
Михаил Р.
- 3 ответа
- 0 вопросов
Nordman99
- 2 ответа
- 1 вопрос
Thomas Taylor
- 1 ответ
- 1 вопрос
pfg21
- 2 ответа
- 0 вопросов
AntHTML
- 1 ответ
- 0 вопросов