Почему preg_match_all у маленького файла все правильно возвращает, а у большого — false?

Question

sorry_i_noob @sorry_i_noob

PHP

Почему preg_match_all у маленького файла все правильно возвращает, а у большого — false?

Здравствуйте. Мне нужно распарсить книгу и взять только контент - главы и их текст, оставив благодарности, оглавление, сноски и тд. Проблема в том, что в одном файле две книги. Я написал вот такой код:

$text = file_get_contents('book_1.txt');
$result = preg_match_all('/Глава первая(?:[\s\S]*?)(?:(?:\n[\r ]*){10})/mu', $text, $matches);

Объясню, что я написал в этой регулярке. Берется слово "Глава первая" и потом любые символы - [\s\S] бесконечное количество раз *. Но квантификатор ленивый - это нужно, чтобы поиск остановился на 10 и более переносах строк (между которыми могут быть переносы каретки и пробелы) - так разделяются книги.
Я пробовал использовать этот код на нужной мне книге - возвращается false. Потом я из книги взял только ее часть - файл получится небольшим. И все отлично работает.
Подскажите, пожалуйста, в чем проблема?
Вот файлы:
https://dropmefiles.com/qYodg
book_1.txt - это полноценная книга.
book_2.txt - это небольшой отрывок.
Помогите, пожалуйста, очень интересно, почему так происходит!

Вопрос задан более трёх лет назад
128 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее

Решения вопроса 2

7 комментариев

sorry_i_noob @sorry_i_noob Автор вопроса
Большое спасибо за ответ! Вот такая ошибка была:
PREG_BACKTRACK_LIMIT_ERROR
А можно ли сделать так, чтобы подобные ошибки показывались, как E_WARNING, например? Или E_NOTICE. В смысле, чтобы скрипт останавливался и выводил на экран сообщение с ошибкой? У меня включен вывод ошибок, но эта ошибка не выводилась:
ini_set('display_errors', 1); error_reporting(E_ALL);

Я хочу, чтобы было типа вот этого:

Ну или вообще, чтобы хоть как-то очевиднее было, что произошла ошибка.
Написано более трёх лет назад
Stalker_RED @Stalker_RED

sorry_i_noob, насколько я понимаю, в стандартной сборке это сделать нельзя.

А вообще, если вы знаете что книги разделены десятком переводов строк, то пожно найти это место при помощи strpos а потом взять substring, например.
Или вычитывать блоками, пока не наткнетесь на десяток переводов строк.

Написано более трёх лет назад
sorry_i_noob @sorry_i_noob Автор вопроса

Stalker_RED, если я буду вычитать блоками, то регулярка может не сработать - в одном блоке 5 пробелов. и в другом - тоже. а регулярка ищет 10. как быть?

Написано более трёх лет назад
Stalker_RED @Stalker_RED

sorry_i_noob, в обоих этих способах регулярка не нужна.

Написано более трёх лет назад
sorry_i_noob @sorry_i_noob Автор вопроса

Stalker_RED, тут же есть непечатаемые символы. Просто скопировать их как есть и вставить в аргумент / часть аргумента функции? Нужно быть увереным, что каждая глава книги разделена СОВЕРШЕННО ОДИНАКОВО.

Написано более трёх лет назад
sorry_i_noob @sorry_i_noob Автор вопроса

Stalker_RED, посмотрите файл "book_1.txt" - главу "СПЛОШНЫЕ СЛЕЗЫ" - сколько там переносов строк после названия главы до ее текста (7 переносов). И посмотрите любую другую главу, например, следующую - "Я КРАДУ ДОБЫЧУ КОРОЛЯ" - там другое количество переносов строк после названия главы до ее текста (2 переноса).

Как с этим справиться без регулярок?

Написано более трёх лет назад
Stalker_RED @Stalker_RED

sorry_i_noob, в большинстве случаев, задачу можно решить несколькими способами, и одни из них могут вам показаться более простыми, а другие - более сложными. На практике выбирают те что понадежнее, поэкономнее по ресурсам, попроще в реализации, или даже какие первые в голову придут.

Можно действительно читать блоками, подобрав размер блока так, чтобы ваша регулярка не упиралась в pcre.backtrack_limit
Чтобы избежать проблемы "пробелы попали на границу" нужно либо брать блоки с перекрытием, либо запоминать сколько там было пробелов в конце предыдущего блока и складывать их с кол-вом пробелов в начале текущего.

Или можно забраться в настройки и увеличить pcre.backtrack_limit и надеяться, что PHP сможет прожевать ваш файл.

Или можно вашу регулярку подправить:
\s{10}Глава
https://regex101.com/r/PZt3oH/1

И это еще не все, можно продолжить выдумывать дальше.

Например удалить все пробелы в пустых строках, тогда переводы строки будет легче считать.

Написано более трёх лет назад

2 комментария

sorry_i_noob @sorry_i_noob Автор вопроса
Большое спасибо за ответ! Вот такая ошибка была:
PREG_BACKTRACK_LIMIT_ERROR
А можно ли сделать так, чтобы подобные ошибки показывались, как E_WARNING, например? Или E_NOTICE. В смысле, чтобы скрипт останавливался и выводил на экран сообщение с ошибкой? У меня включен вывод ошибок, но эта ошибка не выводилась:
ini_set('display_errors', 1); error_reporting(E_ALL);

Я хочу, чтобы было типа вот этого:

Ну или вообще, чтобы хоть как-то очевиднее было, что произошла ошибка.
Написано более трёх лет назад
DevMan @DevMan

sorry_i_noob, ну в случае preg_match возврат false - и есть сигналом об ошибке.

можно извращаться и написать кастомный обработчик, но имхо это лишнее.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 126 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 352 просмотра
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 212 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 161 просмотр
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 135 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2407 просмотров
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 305 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 162 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 236 просмотров
2

ответа
PHP

Средний
Как подключиться к серверу PHP и чтобы отображались исполнители?
- 1 подписчик
- 24 апр.
- 268 просмотров
3

ответа
Показать ещё Загружается…

Answer 1 · 2018-11-19 05:51:32

false возвращается при ошибке.
можно посмотреть что за ошибка при помощи preg_last_error().

echo array_flip(get_defined_constants(true)['pcre'])[preg_last_error()];

Answer 2 · 2018-11-19 05:53:00

воспользуйтесь https://secure.php.net/manual/ru/function.preg-las...
возможно превышаются дефолтные лимиты

у меня код отработал без ошибок

Почему preg_match_all у маленького файла все правильно возвращает, а у большого — false?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт