Как конвертировать много xml файлов в csv или excel?
Есть много (10.000 + xml файлов, в которых присутствуют документы , в среднем около 100 документов.) Состав документа : дата, название организации, инн. Задача преобразовать все 10.000 Xml файлов и вытянуть данные по всем документам. То есть на выходе будет 1.000.000 строк…
Как это сделать на питоне? Смотрел видео индусов, читал форумы зарубежные, ничего не получается. С питоном только начал знакомство. Хочу сделать, чтобы код тянул xml из директории (папки) и конвертировал в другую папку, но без привязки имени файла, иначе геммор.
PythonJun1188,
в простом варианте(на bash) это будет выглядеть так:
dir_in=/tmp/xmldir
dir_out=/tmp/csvdir
for i in "$dir_in"/*.xml; do
xq '.file.field' "$i" |dasel -r json -w csv > "${dir_out}/$(name=${i##*/};echo -n ${name%.xml})".csv
done
где исходные xml файлы лежат в папке $dir_in без вложений, а результат попадает в папку $dir_out, причем имена файлом будут совпадать но будет иметь соответствующе расширение. Например:
/tmp/xmldir/test1.xml ---> /tmp/csvdir/test1.csv