На данный момент стоит задача распарсить содержимое Word-документа, а именно — там большая таблица (не спрашивайте почему не в экселе, не я автор исходного материала) и нужно считать значения всех её ячеек, причём нужно будет ещё понять что к чему относится (оно построена по типу таблицы умножения Пифагора — на пересечении строк и столбцов искомые данные).
С pdf — все тоже самое: нужен текст, таблица, картинки…
С DOCX все проще — это просто сжатый контейнер содержащий XML файлы, из которых уже можно распарсить данные. Библиотек массы, нужно смотреть по требуемому функционалу.
А вот PDF — знаю только о FPDF. Я бы рекомендовал найти какой-либо инструмент на подобии PDF2HTML и из PHP просто выполнять команду для выдирания информации.
А какая разница? это лишь контейнер. Из него формируются структуры данных и т.д, а уже из них собирается новый контейнер. Так что потерять что-то из перегонки форматов в этом случае можно только при перегонке docx в doc.
Для docx решений куча, как выше сказали. А pdf, очевидно, в общем случае разобрать на «текст, таблица, картинки» невозможно. Вернее, возможно, но ограничено.
PDF мне доводилось разбирать после pdftohtml. Таблиц там нет — компоновку можно выяснять по координатам в стилях. Криво и неудобно, но другого решения я не нашел. Выдача в xml формате, имхо, получается удобнее для парсинга.
Тут достаточно толково описано, как все это устроено изнутри
2) Где то из этой же серии статей было и про .doc
3) Мой вам совет www.phpdocx.com/
В свое время тоже думали, что проще руками все сделать. Там есть бесплатная версия. Для большинства простых задач ее должно хватить.
PS но про то, как все устроено, все равно почитайте.