Как правильно сравнивать cvs файлы?

Question

Родион @Rodion2

PHP

Как правильно сравнивать cvs файлы?

Добрый день
Есть 2 cvs файла
Один весит 30мб, другой 80мб (далее f_30 и f_80)
В обоих файлах у каждой строки есть ID
Нужно строки файла f_80 дополнить строками файла f_30 там, где ID строк у файлов совпадают
пример строки из файла: f_80

...
813 Петя программист
412 Коля программист
...

пример строки из файла: f_30

...
622 python зеленый
813 php красный
...

после работы скрипта в файле f_80 должно выглядеть примерно так

...
813 Петя программист python зеленый
814 Коля программист
...

как скрипт работает сейчас:
Сначала весь файлик f_30 читается и запоминается в массив (1 элемент = 1 строка)
потом построчно начинает читаться файл f_80 - берет ID и ищет такую же строку в f_30
нашел? - добавь, удали строку из f_30
не нашел? - дальше

Вопросы:
1) можно ли как то улучшить/переделать/придумать_новый алгоритм сравнения ?
2) нормально ли вообще хранить в памяти массивы по 30мб и больше ?
3) есть ли какие то уже готовые решения в эту сторону - необязательно прямо потеме, но хотя бы рядом, чтобы посмотреть/позаимствовать идеи ?
4) что делать если файлы по 400-500 мб ?
5) как вариант рассматривается перенос файлов в базу и уже аналогичная работа с базой - как вам такая идея ?

Вопрос задан более трёх лет назад
210 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 3 подписчика
- 14 нояб.
- 329 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 221 просмотр
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 187 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 310 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 283 просмотра
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 150 просмотров
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 322 просмотра
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 375 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 304 просмотра
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 292 просмотра
4

ответа
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

Answer 1 · 2017-12-03 15:55:56

перенос файлов в базу и уже аналогичная работа с базой

Да, можно.

Но гораздо проще на bash в одну строку.
Удалить полные дубли строк: cat file1.csv file2.csv | sort -u
Удалить дубли только по первой колонке: cat file1.csv file2.csv | sort -k1,1 -u
Если надо не просто удалить дубли по первой колонке, а еще и сконкатенировать данные по второй колонке, то еще допишите простой while

Как правильно сравнивать cvs файлы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт