Как получить имя файла из zip архива, который содержит кириллицу?

Question

alexalexes @alexalexes

PHP
Zip

Как получить имя файла из zip архива, который содержит кириллицу?

Дано: php 5.6.
Архив 123.zip, созданный с помощью 7-zip в Windows с настройками по умолчанию.
Внутри архива содержится файл с именем:

Съешь ещё этих мягких французских булок, да выпей чаю.txt

Любыми архиваторами и стандартными средствами Windows архив читается и извлекается без ошибок.
С помощью модуля ZipArchive пытаемся получить имя файла в архиве:

setlocale(LC_ALL, 'ru_RU.utf8');
  header('Content-Type: text/html; charset=utf-8');
  $zip = new ZipArchive;
  $zip_temp_file_name = '123.zip';
  $zip_res = $zip->open($zip_temp_file_name);
  $inner_zip_file_name = $zip->getNameIndex(0);
  var_dump($inner_zip_file_name);

На выходе получается:

æΩÑΦ∞ ÑΘ± φΓ¿σ ¼∩ú¬¿σ Σαá¡µπºß¬¿σ íπ½«¬, ñá óδ»Ñ⌐ τáε.txt

Как извлечь имя файла, содержащийся в архиве и вывести его в кодировке utf-8?

Вопрос задан более трёх лет назад
343 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 135 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 225 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 481 просмотр
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 257 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 203 просмотра
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 162 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2484 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 353 просмотра
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 194 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 257 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2023-03-03 13:42:28

Имя файла, получаемое при работе с модулем ZipArchive, из-за бага в этом модуле требует некоторого преобразования через промежуточные однобайтовые кодировки.
Нужно провести такую цепочку преобразований:
UTF-8 -> encode1 -> encode2 (encode3) -> UTF-8
В php это будет так:

$out_str = iconv('UTF-8', $encode1.'//IGNORE', $in_str);
$out_str = iconv($encode1, $encode2.'//IGNORE', $out_str);
$out_str = iconv($encode3, 'UTF-8//IGNORE', $out_str);

Но проблема в том, что для каждой конфигурации сервера эти кодировки могут отличаться.
Чтобы их найти нужно воспользоваться методом перебора.
Для начала найдем все кодировки, которые поддерживает функция iconv.
Для этого в консоли сервера вызовем:
$ iconv -l
Из набора кодировок нужно взять только те, которые содержат наименование "CPxxx", где xxx - число.
С помощью скрипта провести полный перебор:

$all_encoding = []; // сюда вставляем список всех кодировок iconv
$out_encoding = array_filter($all_encodings, function($item){return strpos(strtolower($item), 'cp') !== false;});
  foreach($out_encoding as $encode1)
  {
    foreach($out_encoding as $encode2)
    {
      foreach($out_encoding as $encode3)
      {
          $str = iconv('UTF-8', $encode1.'//IGNORE', $out);
          $str = iconv($encode1, $encode2.'//IGNORE', $str);
          $str = iconv($encode3, 'UTF-8//IGNORE', $str);
          if($str !== false && $str !== '')
            echo $encode1.'::'.$encode2.'::'.$encode3.'::'.$str.'<br>';
      }
    }
  }

Визуально ищем тот вариант, где имя файла восстановилось.
В моем случае это:
UTF-8 -> cp437 -> cp437 (cp866) -> UTF-8
В коде это выглядит так:

$out_str = iconv('UTF8', 'CP437//IGNORE', $in_str);
$out_str = iconv('CP437', 'CP437//IGNORE', $out_str);
$out_str = iconv('CP866', 'UTF8//IGNORE', $out_str);

Как получить имя файла из zip архива, который содержит кириллицу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт