Как преобразовать файлы из PDF или docx в csv в заданном формате?
Добрый день!
У меня появилась задача загрузить справочник стандартов медицинской помощи в 1С. Проблема в том, что они есть только в PDF, либо в docx. Решение сводится к преобразованию этих форматов в csv, либо xls в заданном формате. Кто-то решал подобные задачи? Примеры файлов прилагаю.
конечно решали, да только тебе что с того? у всех разные правила оформления данных. Для вытаскивания данных из ворда много вариантов на любом языке. Нужно писать скрипт, скорее всего геморный не на один день, формат у ворда замороченный
C1inicist, с PDF все хорошо, о нем в такой задаче можно просто забыть.
А вот XLSX в CSV штатно переводит любой офис.
Вот только что вы потом будете делать с такой кашей неструктурированных данных - это для меня загадка.
Эффективность решения будет сильно зависеть от того как представлены исходные данные. По поводу pdf/docx. Очень важно что было первоисточником. Если doсx получет путем конверсии из pdf то нафиг он такой нужен. Лучше всегда брать то что оригинал. Меньше шума будет внутри файла.
Очень важно как представлены таблицы. Это текст? Или сканированные картинки? Тоже сильно вляет на оценку сложности.
C1inicist, там дублируется все я так понимаю? тогда можно взять только XLSX, технических проблем с XLSX особо нет, скорее проблема что нужно понять какие данные куда запихивать
ну и если вы не разбираетесь в программирование это вам на фриланс, по идеи не за дорого сделают
Adamos, с моей точки зрения - это авантюра. Если считать цену разработки - против вёрстки текста, то проще посадить бухгалтершу, заплатить ей чуть больше и она за пару вечеров набъет все таблицы вручную.