Как сравнить 2 больших csv файла в питоне?

Question

incognito123 @incognito123

CSV

Как сравнить 2 больших csv файла в питоне?

Есть два файла
tracks.csv и tracks2.csv
Обозначение столбцов одинаковое
Как сравнить их по содержанию?

Вопрос задан более трёх лет назад
432 просмотра

11 комментариев

Подписаться 2 Простой 11 комментариев

Roman K @deliro

А что такое "сравнить" мы видимо должны угадать?

Написано более трёх лет назад
mayton2019 @mayton2019

Что должно вывестись в результате сравнения?

Написано более трёх лет назад
incognito123 @incognito123 Автор вопроса

mayton2019, одинаковые ли файлы по содержанию или разные

Написано более трёх лет назад
Максим Припадчев @Maksim_64

incognito123, А на сколько большие по весу?

Написано более трёх лет назад
mayton2019 @mayton2019

incognito123, для ответа "да" или "нет" алгоритм может быть один. Например контрольные суммы сравнить
по-байтно или по-символоно или по-строчно поколоночно. Но алгоритм будет бесполезен если ты захочешь детали.

Если нужна детализация по отличиям то надо думать что-то другое.

Написано более трёх лет назад
Модератор @TosterModerator

Покажите, как вы пробовали решить проблему, приведите код попытки (пусть неудачной), опишите, как запускали, что ожидали и что получилось.
За готовыми решениями - на фриланс. В текущем виде это не вопрос, а задание. Нарушен п.5.12 Регламента.

Написано более трёх лет назад
Александр @shabelski89

pandas easy way

Написано более трёх лет назад

Александр @nexofix

incognito123,
Как вариант использовать модуль Pandas, создать два датафрейма и сравнить их с помощью метода equals:

import pandas as pd

df1 = pd.read_csv('tracks.csv')
df2 = pd.read_csv('tracks2.csv')

if df1.equals(df2):
    print("Фреймы равны")
else:
    print("Фреймы не равны")

Также, с помощью индексации можно сравнить столбцы

if (df1[['column1', 'column2']] == df2[['column1', 'column2']]).all().all():
    print("Значения в столбцах 'column1' и 'column2' равны")
else:
    print("Значения в столбцах 'column1' и 'column2' не равны")

Написано более трёх лет назад

Igor Deyashkin @Lobotomist

Какого размера файлы?

Должен ли учитываться порядок строк? То есть если строки в файлах одинаковые, но расположены по-разному.

Одинаковый ли порядок столбцов в файлах? Нужно ли считать их одинаковыми, если столбцы в другом порядке, но значения в строках одинаковые?

Нужно ли учитывать различия в представлении одинаковых значений в csv файле? Например, двойные кавычки вокруг строки не содержащей разделительного символа не обязательны и строка строка может быть представлена как строка, либо как "строка".

Написано более трёх лет назад
shurshur @shurshur

incognito123, при такой постановке вопроса может оказаться, что достаточно сравнить MD5-сумму...

Написано более трёх лет назад
mayton2019 @mayton2019

Вот есть к примеру два менеджера. Один сделал отчет в excel. Отсортировал по полю date и отправил на почту к автору топика. Потом другой менеджер открыл этот-же отчет. Поглядел. Подумал и отсортировал по полю payment amount и тоже кинул копию автору топика. И оба менеджера свалили в отпуск.

Вот с моей кочки зрения (старого Ораклиста) - эти два отчета одинаковы. Потому что реляция одинакова. Реляция мать ево Эдгара Кодда. Тот-же сет строк. И как сравнивать?

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

CSV

+1 ещё

Простой
Как перевести большие CSV файлы через ИИ?
- 1 подписчик
- 27 нояб. 2025
- 270 просмотров
2

ответа
1С-Битрикс

+1 ещё

Средний
Как импортировать товары с картинками в битрикс из csv?
- 1 подписчик
- более года назад
- 318 просмотров
1

ответ
PHP

+1 ещё

Простой
Как заменить текст в файле .csv с помощью PHP?
- 1 подписчик
- более года назад
- 161 просмотр
2

ответа
Python

+1 ещё

Простой
Как правильно разбить csv файл?
- 2 подписчика
- более года назад
- 337 просмотров
1

ответ
CSV

+1 ещё

Простой
Как решить проблему с could not convert string to float?
- 1 подписчик
- более года назад
- 521 просмотр
2

ответа
Windows

+3 ещё

Простой
При открывании csv файла в формате .txt появляются символы ("" и ;) как можно открыть csv файл без символов; и «»?
- 1 подписчик
- более двух лет назад
- 205 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как исправить неправильное отображение данных в csv после экспорта?
- 1 подписчик
- более двух лет назад
- 708 просмотров
1

ответ
Python

+1 ещё

Простой
Как определить символ(ы) конца строки в csv?
- 1 подписчик
- более двух лет назад
- 823 просмотра
2

ответа
Python

+2 ещё

Простой
Как сделать программу для перемещения файлов?
- 1 подписчик
- более двух лет назад
- 122 просмотра
1

ответ
CSV

Средний
Как полнотекстового искать строку по множеству csv файлов?
- 1 подписчик
- более двух лет назад
- 148 просмотров
3

ответа
Показать ещё Загружается…

А что такое "сравнить" мы видимо должны угадать?
Что должно вывестись в результате сравнения?
mayton2019, одинаковые ли файлы по содержанию или разные
incognito123, А на сколько большие по весу?
incognito123, для ответа "да" или "нет" алгоритм может быть один. Например контрольные суммы сравнить
по-байтно или по-символоно или по-строчно поколоночно. Но алгоритм будет бесполезен если ты захочешь детали.

Если нужна детализация по отличиям то надо думать что-то другое.
Покажите, как вы пробовали решить проблему, приведите код попытки (пусть неудачной), опишите, как запускали, что ожидали и что получилось.
За готовыми решениями - на фриланс. В текущем виде это не вопрос, а задание. Нарушен п.5.12 Регламента.
incognito123,
Как вариант использовать модуль Pandas, создать два датафрейма и сравнить их с помощью метода equals:

import pandas as pd df1 = pd.read_csv('tracks.csv') df2 = pd.read_csv('tracks2.csv') if df1.equals(df2): print("Фреймы равны") else: print("Фреймы не равны")

Также, с помощью индексации можно сравнить столбцы

if (df1[['column1', 'column2']] == df2[['column1', 'column2']]).all().all(): print("Значения в столбцах 'column1' и 'column2' равны") else: print("Значения в столбцах 'column1' и 'column2' не равны")
Какого размера файлы?

Должен ли учитываться порядок строк? То есть если строки в файлах одинаковые, но расположены по-разному.

Одинаковый ли порядок столбцов в файлах? Нужно ли считать их одинаковыми, если столбцы в другом порядке, но значения в строках одинаковые?

Нужно ли учитывать различия в представлении одинаковых значений в csv файле? Например, двойные кавычки вокруг строки не содержащей разделительного символа не обязательны и строка строка может быть представлена как строка, либо как "строка".
incognito123, при такой постановке вопроса может оказаться, что достаточно сравнить MD5-сумму...
Вот есть к примеру два менеджера. Один сделал отчет в excel. Отсортировал по полю date и отправил на почту к автору топика. Потом другой менеджер открыл этот-же отчет. Поглядел. Подумал и отсортировал по полю payment amount и тоже кинул копию автору топика. И оба менеджера свалили в отпуск.

Вот с моей кочки зрения (старого Ораклиста) - эти два отчета одинаковы. Потому что реляция одинакова. Реляция мать ево Эдгара Кодда. Тот-же сет строк. И как сравнивать?

Answer 1 · 2023-02-04 17:07:33

Ну CSV - не имеют индекса, а большие в память не загрузить - поэтому только построчно, надеясь на то что одинаковые строчки в одном и том же месте(одинаковый порядок строк) - построчное чтение и сравнение не нагружает память. Иначе придется хотя бы один файл загнать в память.

Answer 2 · 2023-02-04 22:29:56

Если сами файлы в память не влезают, то попробуй сохранять хеш от сравниваемых значений (в т.ч. всю строку, особенно это ускорит процесс, если знаешь что в csv файлах нет строк содержащих \n это часть этого извращенного стандарта) так как грузить файл построчно быстрее чем парсить csv

А дальше простая задача, первый файл грузишь в память в словарь (лучше множество set как я помню оно быстрее), второй файл построчно проверяешь наличие хеша в первом (если надо знать в обе стороны, то загрузи хеши обоих и бери пересечение)

Как сравнить 2 больших csv файла в питоне?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт