velu, по части MS-SQL server я не специалист. Но знающие говорят что CTAS (create table as select)
работает быстрее чем insert from select на некоторых типах DBMS.
Это связано с тем что операция CTAS рассматривается как атомарная и не-транзакционная. Грубо говоря
она работает быстрее потому-что ей не нужен WAL/Redo-log.
Но для CTAS вам нужно убить старую таблицу и после популяции строк добавить все права и привилегии
и констрейнты и триггеры и индексы. А это гиморрно и обычно делают первый вариант.
Я советую не париться и просто делать первый вариант. Перфекционизм несет другие более
сложные технические долги. Лучше без перфекционизма если это сильно на бизнес не влияет.
Эффективность решения будет сильно зависеть от того как представлены исходные данные. По поводу pdf/docx. Очень важно что было первоисточником. Если doсx получет путем конверсии из pdf то нафиг он такой нужен. Лучше всегда брать то что оригинал. Меньше шума будет внутри файла.
Очень важно как представлены таблицы. Это текст? Или сканированные картинки? Тоже сильно вляет на оценку сложности.
Qubc, точных условий я не помню. Но они примерно такие-же как и в топике. На малых объемах данных - простые алгоритмы и стурктуры данных работают всегда лучше чем сложные.
Вообще TCP/IP так устроен что акт коммуникации двух хостов всегда проходит при полной известности двух адресов. Иначе протокол не работает. И тут есть мысль что жертва автора внезапно может стать и не жертвой а совсем даже наоборот. И я очень надеюсь что автор имеет хорошие тылы или прикрытие. Потому что жертва может прийти домой и постучать автору в дверь. А это согласитесь уже вообще не смешно.
Стоит ли вообще таким заниматься сидя с жертвой в одной стране?
rPman, ну да. Это только практика покажет. Собственно эволюция MongoDb, CouchDb, e.t.c идет от практики применения документов со слабой спецификацией полей. Если там будут какие-то реляционные операции над атрибутами - то она будет работать не очень быстро. Но если надо просто найти товар и показать его - то вполне себе пойдет.
Здесь нет идеального решения. Здесь - матрица компромиссов. Где-то чуть-чуть мы проиграли. Где-то выиграли.
Но и EAV - это не серебрянная пуля. Это просто теоретизированная концепция.
Wan-Derer, ну да. Идея с юзер-сервисом вполне себе здравая. Да.
Посмотри OAuth2 Authorization Server. Кажется он поддерживает технологию JWT-токенов. Это щас самый популярный протокол авторизации.
По поводу сложностей деплоя микросервисов. Да. Есть такая проблема. Но если сравнивать с монолитом то denial of service монолита более заметна для пользователей чем недоступность отдельного микро-сервиса. Ну и для микро-сервисов есть отдельная культура деплоя. CI/CD и оркестровка и всякие blue-green техники плавного деплоя.
Сама MySQL так не глючит. Но если есть какая-то схема балансировки - то запрос может прыгать между master-slaves и в описанной ситуации есть признкаки такого рандомного переключения.
Как фиксить. Я думаю никак. Надо просто собирать логи и отправлять хостеру запрос на техподдержку.
Поскольку все сведения касающиеся личности пользователя - это PII (Personally identifable) то все страны и государства такую информацию закрывают достаточно быстро. Можно поискать в телеграм-боте Глаз Бога (в основном по РФ, Казахстан), но его базы - достаточно тухлые. И информация там может быть 10-летней давности.\
java -Xmx1G -verbose:class -jar 1.7.10.jar
Опция verbose покажет все класс-файлы которые загружаются.
Убедись что это именно ТОТ файл и что он через каждый билд пересоздается заново. Есть подозрение что это просто некий другой файл.