Adamos, с моей точки зрения - это авантюра. Если считать цену разработки - против вёрстки текста, то проще посадить бухгалтершу, заплатить ей чуть больше и она за пару вечеров набъет все таблицы вручную.
velu, по части MS-SQL server я не специалист. Но знающие говорят что CTAS (create table as select)
работает быстрее чем insert from select на некоторых типах DBMS.
Это связано с тем что операция CTAS рассматривается как атомарная и не-транзакционная. Грубо говоря
она работает быстрее потому-что ей не нужен WAL/Redo-log.
Но для CTAS вам нужно убить старую таблицу и после популяции строк добавить все права и привилегии
и констрейнты и триггеры и индексы. А это гиморрно и обычно делают первый вариант.
Я советую не париться и просто делать первый вариант. Перфекционизм несет другие более
сложные технические долги. Лучше без перфекционизма если это сильно на бизнес не влияет.
Эффективность решения будет сильно зависеть от того как представлены исходные данные. По поводу pdf/docx. Очень важно что было первоисточником. Если doсx получет путем конверсии из pdf то нафиг он такой нужен. Лучше всегда брать то что оригинал. Меньше шума будет внутри файла.
Очень важно как представлены таблицы. Это текст? Или сканированные картинки? Тоже сильно вляет на оценку сложности.
Qubc, точных условий я не помню. Но они примерно такие-же как и в топике. На малых объемах данных - простые алгоритмы и стурктуры данных работают всегда лучше чем сложные.
Вообще TCP/IP так устроен что акт коммуникации двух хостов всегда проходит при полной известности двух адресов. Иначе протокол не работает. И тут есть мысль что жертва автора внезапно может стать и не жертвой а совсем даже наоборот. И я очень надеюсь что автор имеет хорошие тылы или прикрытие. Потому что жертва может прийти домой и постучать автору в дверь. А это согласитесь уже вообще не смешно.
Стоит ли вообще таким заниматься сидя с жертвой в одной стране?