Цикл внутри цикла = 200К * 6К = больше лярда обращений. Самое простое, если лень переписывать или долго - передавайте идентификатор "чего-то там" из первого массива во второй вручную, используйте лимиты + проверяйте/помечайте записи, что уже были отредактированы, а потом пропускайте. Советы на отъе**сь и неправильные по сути))
Stepan Sidorov, вот тут я вам точно не помогу, я php-шник) Самое банальное - проверять что пришло (строка/не строка) и регулярками вырезать все, что не нужно. Но уверен, что есть вариант и получше. Смотрите, что возвращают paragraph._element.xpath("//pic:cNvPr") и paragraph._element.xpath("//pic:cNvPr")[0], от этого и пляшите.
Stepan Sidorov, с этим не подскажу точно, давно ковырял docx. Беглый взгляд расширение файла не нашел, поэтому могу предложить: а) проверить несколько документов с разными картинками вставленными (jpg, png), б) название изображения в теле документа и самого файла приводить к нижнему регистру, дабы ускорить поиск в папке. И стоит помнить/знать, что имена там будут уникальные, т.е. image1, image2, image3, etc.