Как в php сравнить два огромных txt файла до 100гб, удалив дубликаты?

Question

NedoKoder @NedoKoder

Как в php сравнить два огромных txt файла до 100гб, удалив дубликаты?

Есть ли на PHP возможность, хотя бы растянув процесс на время, сравнив два огромных txt файла по 100гб, удалить дубликаты в нём?

Файлы например имеют следующий формат:

ВОТ ТАК

Файл 1 ||| Файл 2
aaa ||| bbb
bbb ||| 123
ccc ||| aaa

Нужно чтобы остались только уникальные.

ВОТ ТАК

Файл 1:
aaa
bbb
ccc
123

Если бы это были какие то небольшие файлы на несколько десятков тысяч строк, было бы логично. Разбил файлы построчно на массивы функцией file() ...сравнил два массива и готово. Ну или велосипед через mysql с уникальным полем, в который добавляешь все строки в базу, а уже MySQL не дает записывать дубликаты. Потом выгружаешь все данные.

Но как можно на локальной машине запустить php скрипт, который обработает два огромных файла? Хотя бы поработав пол часа, час

Вопрос задан более двух лет назад
271 просмотр

3 комментария

Подписаться 1 Средний 3 комментария

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 195 просмотров
0

ответов
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 160 просмотров
2

ответа
SQL

Простой
Правильно ли написан SQL-запрос для вывода клиентов с действующими (непогашенными) кредитами?
- 1 подписчик
- 19 окт.
- 168 просмотров
2

ответа
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 272 просмотра
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 258 просмотров
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 246 просмотров
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 240 просмотров
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 160 просмотров
1

ответ
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 209 просмотров
4

ответа
PHP

Простой
Как точно работает скрипт на RoadRunner?
- 1 подписчик
- 13 окт.
- 222 просмотра
1

ответ
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Разработчик PHP/Go

ЭТП ГПБ / VESNA

До 220 000 ₽

NedoKoder, а надо именно в php?

что нибудь типа такого не покатит?
diff file1 file2 > file3

упс - вам не диф нужен, а удаление дубликатов тогда так:

sort -u file1 file2 > file3

Answer 1 · 2023-01-22 22:15:28

На POSIX системах можно использовать fgrep:

$ cat /tmp/file1.txt
aaa
bbb
ccc
$ cat /tmp/file2.txt
bbb
123
aaa
$ fgrep -f /tmp/file1.txt /tmp/file2.txt
bbb
aaa

Так что на PHP как-то так:

$output = shell_exec('fgrep -f /tmp/file1.txt /tmp/file2.txt > /tmp/dups.txt');

Однако, если требуется выполнять какие-то дополнительные манипуляции, тогда, возможно, лучше сразу импортировать в СУБД.

Добавлено:
упустил факт, что помимо дубликатов нужно оставить и неповторяющиеся значения. Тогда так:

$ sort -u /tmp/file1.txt /tmp/file2.txt
123
aaa
bbb
ccc

$output = shell_exec('sort -u /tmp/file1.txt /tmp/file2.txt > /tmp/dups.txt');

Answer 2 · 2023-01-22 21:48:43

Файлы надо отсортировать. А потом это стандартная задача слияния отсортированных списков (читаете по одной строке из файла, меньшую по алфавитному порядку записываете в ответ, читаете из ее файла следующую строку. Если 2 строки одинаковые - читайте следующую строку в каждом файле. Если файл закончился, считайте что там бесконечно большая лексикографически строка).

Сортировка очень больших файлов - тоже стандартная тема. Лучше всего, наверно, подойдет radix sort. Правда, нужно будет свободного места на диске чтобы копии файлов тоже помещались, да лучше с запасом. Тут надо будет 3 раза (или какая там у вас длина строки) прочитать файл. Прочитанные строки надо распихивать по 256 (или сколько там символов различных может быть) файлам. Потом все эти файлы надо собрать воедино в нужном порядке.

Надо только хорошо порыться в документации - нужны функции php которые читают файл построчно и не грузят его весь целиком в память. Если, конечно, у вас не ~128гб оперативки. Тогда лучше каждый файл загрузить в память целиком и сортировать quick sort'ом.

Answer 3 · 2023-01-22 21:36:22

Slava Rozhnev @rozhnev Куратор тега PHP

Fullstack programmer, DBA, медленно, дорого

Мне кажется проще засунуть файны в базу данных и уже в ней выполнять манипуляции

Ответ написан более двух лет назад

2 комментария

Answer 4 · 2023-01-23 14:52:46

Запускайте php скрипты не из броузера - и пусть они хоть неделями работают. Ограничение на время работы скрипта - это ограничение для web сервера, чтобы не держать зря коннекты и ресурсы...

Как в php сравнить два огромных txt файла до 100гб, удалив дубликаты?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт