Как получить plain text из файла .doc на php?

Question

desperate_one @desperate_one

PHP
Word

Как получить plain text из файла .doc на php?

Приветствую! Уже месяц бьюсь с кодом для чтения текста из файлов разных форматов, сейчас получается доставать чистый текст только из pdf, txt, docx. Сейчас тормозит всю работу формат .doc своим файловым содержанием. Прогуглил сотни запросов и ни одно решение что дают в сети не помогло, есть такое решение:

function parseWord($userDoc) 
{
    $fileHandle = fopen($userDoc, "r");
    $line = @fread($fileHandle, filesize($userDoc));   
    $lines = explode(chr(0x0D),$line);
    $outtext = "";
    foreach($lines as $thisline)
      {
        $pos = strpos($thisline, chr(0x00));
        if (($pos !== FALSE)||(strlen($thisline)==0))
          {
          } else {
            $outtext .= $thisline." ";
          }
      }
     $outtext = preg_replace("/[^a-zA-Z0-9\s\,\.\-\n\r\t@\/\_\(\)]/","",$outtext);
    return $outtext;
}

UPD: Код выше вообще неправильно скинул, но даже если в условие парсера пихнуть кириллицу, проблему в нём это не решит, так что в любом случае проблема не в этом, есть ещё один скрипт, вроде он более правильнее разбирает файл .doc, но всё также не поддерживает кириллицу. Почему я говорю правильнее, потому что код выше возвращает неверное количество символов и даже латинские символы неверные, а вот следующий код возвращает верное количество символов, даже абзацы сохраняет, но любые символы кроме латинских букв передаёт как квадратики.

function read_doc_file($filename) {
     if(file_exists($filename))
    {
        if(($fh = fopen($filename, 'r')) !== false ) 
        {
           $headers = fread($fh, 0xA00);

           // 1 = (ord(n)*1) ; Document has from 0 to 255 characters
           $n1 = ( ord($headers[0x21C]) - 1 );

           // 1 = ((ord(n)-8)*256) ; Document has from 256 to 63743 characters
           $n2 = ( ( ord($headers[0x21D]) - 8 ) * 256 );

           // 1 = ((ord(n)*256)*256) ; Document has from 63744 to 16775423 characters
           $n3 = ( ( ord($headers[0x21E]) * 256 ) * 256 );

           // 1 = (((ord(n)*256)*256)*256) ; Document has from 16775424 to 4294965504 characters
           $n4 = ( ( ( ord($headers[0x21F]) * 256 ) * 256 ) * 256 );

           // Total length of text in the document
           $textLength = ($n1 + $n2 + $n3 + $n4);

           $extracted_plaintext = fread($fh, $textLength);

           // simple print character stream without new lines
           //echo $extracted_plaintext;

           // if you want to see your paragraphs in a new line, do this
           return nl2br($extracted_plaintext);
           // need more spacing after each paragraph use another nl2br
        }
    }   
    }

Пробовал phpword, работает только с docx, который можно читать и кодом в 10 строк.
Но кириллицу оно не принимает, а мне нужна поддержка всех языков. Есть ли у кого нибудь решение или хотя бы совет как придти к нему, как получить вообще просто plain text из .doc файлов?

Вопрос задан более трёх лет назад
1899 просмотров

6 комментариев

Подписаться 10 Простой 6 комментариев

Дмитрий @Compolomus Куратор тега PHP

Используй ~~силу~~готовую библиотеку

Написано более трёх лет назад
Makssof @makssof

a-zA-Z
Интересно, почему же "кириллицу оно не принимает"

Написано более трёх лет назад
Daria Motorina @glaphire Куратор тега PHP

desperate_one, регулярка не видит кириллицу, потому что A-Za-z покрывает только стандартную латиницу, чтобы покрывало и латиницу, и кириллицу, надо писать /[A-Za-zА-Яа-я]/u (примерно), почитайте подробнее

Написано более трёх лет назад
Kovalsky @lazalu68

Вот здесь можно найти интересную инфу по теме:
https://stackoverflow.com/questions/188452/reading...
www.winfield.demon.nl - читалка для doc файлов, возможно её можно использовать как утилиту для чтения

Написано более трёх лет назад
Сергей c0re @erge

не совсем понятно, а точнее вообще не понятно что вы здесь представили...
.doc - это бинарник, его просто так не погрепаешь, нужно формат файла знать.

Пробовал phpword, работает только с docx

а можно ваш экземпляр кода посмотреть как вы пробовали PHPWord'ом открывать??
потому как в PHPWord Features указано что читать текст он как раз вроде как может.

Написано более трёх лет назад
Сергей c0re @erge

но любые символы кроме латинских букв передаёт как квадратики.

вы их в каком виде пробовали читать??
там все кроме ANSI идет в кодировке - UTF-16LE / wiki
Вам необходимо полученный текст сконвертировать в нужную вам кодировку.
гуглите например - php convert UTF-16LE to UTF-8

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

4 комментария

desperate_one @desperate_one Автор вопроса

Вы просто гений! Недели головоломок решены. Правда есть косяк, выводятся непонятные символы на том месте, где в самом файле этого нет. В любом случае спасибо огромное Павлу!

Написано более трёх лет назад
Павел Чесноков @cesnokov
desperate_one,
Как продолжение можно выфильтровать все не нужные символы:
$extracted_plaintext = mb_convert_encoding( $extracted_plaintext, 'UTF-8', 'UTF-16LE' ); $extracted_plaintext = preg_replace('/[^0-9A-Za-zĄ-Žą-žА-Яа-яЁё.,!? \n\r]/u', '', $extracted_plaintext);
Написано более трёх лет назад
desperate_one @desperate_one Автор вопроса

Павел Чесноков, спасибо. Фильтр тут не нужен, просто непонятно откуда вывел код этот кусок текста.

Написано более трёх лет назад
Павел Чесноков @cesnokov

desperate_one, это какой-то элемент: картинка, таблица, что-то такое.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 97 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 206 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 460 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 250 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 192 просмотра
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 154 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2470 просмотров
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 345 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 187 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 252 просмотра
2

ответа
Показать ещё Загружается…

Используй ~~силу~~готовую библиотеку
a-zA-Z
Интересно, почему же "кириллицу оно не принимает"
desperate_one, регулярка не видит кириллицу, потому что A-Za-z покрывает только стандартную латиницу, чтобы покрывало и латиницу, и кириллицу, надо писать /[A-Za-zА-Яа-я]/u (примерно), почитайте подробнее
Вот здесь можно найти интересную инфу по теме:
https://stackoverflow.com/questions/188452/reading...
www.winfield.demon.nl - читалка для doc файлов, возможно её можно использовать как утилиту для чтения
не совсем понятно, а точнее вообще не понятно что вы здесь представили...
.doc - это бинарник, его просто так не погрепаешь, нужно формат файла знать.

Пробовал phpword, работает только с docx

а можно ваш экземпляр кода посмотреть как вы пробовали PHPWord'ом открывать??
потому как в PHPWord Features указано что читать текст он как раз вроде как может.
но любые символы кроме латинских букв передаёт как квадратики.

вы их в каком виде пробовали читать??
там все кроме ANSI идет в кодировке - UTF-16LE / wiki
Вам необходимо полученный текст сконвертировать в нужную вам кодировку.
гуглите например - php convert UTF-16LE to UTF-8

Answer 1 · 2019-10-08 22:47:05

Тема очень интересная и пришлось разобраться до конца.
До полного счастья вам не хватает этого:

$extracted_plaintext = mb_convert_encoding( $extracted_plaintext, 'UTF-8', 'UTF-16LE' );

И всё вместе будет:

function read_doc_file($filename) {
    if (file_exists($filename)) {
        if (($fh = fopen($filename, 'r')) !== false) {
            $headers = fread($fh, 0xA00);

            // 1 = (ord(n)*1) ; Document has from 0 to 255 characters
            $n1 = ( ord($headers[0x21C]) - 1 );

            // 1 = ((ord(n)-8)*256) ; Document has from 256 to 63743 characters
            $n2 = ( ( ord($headers[0x21D]) - 8 ) * 256 );

            // 1 = ((ord(n)*256)*256) ; Document has from 63744 to 16775423 characters
            $n3 = ( ( ord($headers[0x21E]) * 256 ) * 256 );

            // 1 = (((ord(n)*256)*256)*256) ; Document has from 16775424 to 4294965504 characters
            $n4 = ( ( ( ord($headers[0x21F]) * 256 ) * 256 ) * 256 );

            // Total length of text in the document
            $textLength = ($n1 + $n2 + $n3 + $n4);

            $extracted_plaintext = fread($fh, $textLength);
            $extracted_plaintext = mb_convert_encoding( $extracted_plaintext, 'UTF-8', 'UTF-16LE' );
            return nl2br($extracted_plaintext);

        } else {
            return FALSE;
        }
    } else {
        return FALSE;
    }
}

$text = read_doc_file('test.doc');

А пока изучал, нашёл интересный тест, может пригодиться:

$text = "A strange string ø, æ, å, ж, п, ą, ū, ė, …"; 
foreach(mb_list_encodings() as $chr){ 
    echo mb_convert_encoding( $text, 'UTF-8', $chr ) . " : " . $chr . "<br><br>";    
}

Answer 2 · 2019-10-09 10:39:00

developer007 @developer007

А если сделать проще и установить catdoc?

catdoc foo.doc > foo.txt

Ответ написан более трёх лет назад

Комментировать

Как получить plain text из файла .doc на php?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт