Как сравнить 2 файла csv на python, что бы из 1 файла сохранились только те строки, которые есть в файле 2?

Question

Sam67 @Sam67

Python

Как сравнить 2 файла csv на python, что бы из 1 файла сохранились только те строки, которые есть в файле 2?

Всем привет!
Такая проблема - у меня есть два файла: 1 содержит множество строк, в каждой из которых около 40 столбцов. 2 файл содержит так же множество строк, но в каждой строке по 1 столбцу. Мне нужно сравнить каждую строку по 40му столбцу, из файла 1, со строками из 2 файла. Если хотя бы одна строка из файла 1 по 40му столбцу совпадает с любой из строк в файле 2, сохранить всю строку в новый файл. Если просто, то , допустим, у нас есть список с какими именами людей мы будем пропускать(это 2 файл), например Коля, Вася, Петя. И просто пришедшая толпа людей с разными фамилиями именами отчествами(файл 1). Нам, вне зависимости от фамилии и отчества(все столбцы кроме 40го) нужно запускать только людей с именами Коля,Вася,Петя.(т.е сохранять в новый файл).
Для решения этой задачи мне сказали использовать змею, но я просто не могу найти инструменты в питоне для решения этой задачи. Сижу уже 3й день и так и не продвинулся.
Заранее спасибо!
P.S. Файлы в формате CSV.

Вопрос задан более трёх лет назад
3074 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Профессия Python-разработчик + ИИ

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

5 комментариев

Sam67 @Sam67 Автор вопроса

Нужно написать используя именно пайтон. Да лол, я учусь на эколога(писал когда-то простенькие скрипты на пыхе). Мне вот выдали такое задание...
Знаю, что скрипт такой сделать, более менее понимающему пайтон человеку не составит труда. Я же - просто в шоке.

Написано более трёх лет назад
Juhani Lahtinen @nukler

Sam67, тогда хотя бы напишите
1. Структуру файла 1.csv.
Хотя бы 2-3 строки из файла, что бы можно было тестировать
2. Структуру файла 2.csv.
Хотя бы 2-3 строки из файла, что бы можно было тестировать.
А то мы тут понапридумываем =)

В питоне нет специальных велосипедов для решения частных задач. Все через if и for, как у всех языков.

Написано более трёх лет назад
Sam67 @Sam67 Автор вопроса

1 файл
1036749 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 9.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 k__Bacteria; p__Firmicutes; c__Bacilli; o__Gemellales; f__Gemellaceae; g__; s__
259732 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 2.0 1.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 k__Bacteria; p__Proteobacteria; c__Alphaproteobacteria; o__Caulobacterales; f__Caulobacteraceae; g__Brevundimonas; s__diminuta
2 файл
g__Brevundimonas
g__Sphingomonas
g__Microcystis
По сути, если g__ пусто - отсеиваем, если g__(и что то тут) не совпадает с ни одной из строк файла 2 - отсеиваем. Что то типо того(Cry).

Написано более трёх лет назад

Juhani Lahtinen @nukler

Sam67, Велосипед... запускать можно с указанием файлов для выхлопа python3 ./find_lines.py 1.csv 2.csv res.csv

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import sys
import os

def open_my_files(file_path,argument):
	try:
		if not os.path.exists(file_path):
			open(file_path, 'x').close()
		in_file = open(file_path,argument)
	except IOError as err:
		print(f"[ERROR] in def open_my_files() : {err}")
		return(False)
	else:
		return(in_file)

def line_from_des_csv_2(des_csv_2):
	data_from_file_csv_2 = str()
	
	for data in des_csv_2.readlines():
		if data.replace("\n","").replace("g__","").lower():
			data_from_file_csv_2 = data_from_file_csv_2 + " " + data.replace("\n","").lower()
			
	return(data_from_file_csv_2)

def find_and_write_data_in_res_file(des_csv_1,des_csv_res,data_from_file_csv_2):
	
	check_line = int(5)
	
	for data in des_csv_1.readlines():
		data = data.replace("\n","").replace(" ","")
		if data:
			data_line = data.split(';')
			if data_line[check_line].replace("g__","").lower():
				
				clear_data_line = data_line[check_line].lower()
				
				if clear_data_line in data_from_file_csv_2:
					des_csv_res.writelines(data + "\n")

	
def main(argv=sys.argv):

	if len(argv) == 3:
		des_csv_1 =   open_my_files(argv[1],"r")
		des_csv_2 =   open_my_files(argv[2],"r")
		des_csv_res = open_my_files(argv[3],"w")
	else:
		des_csv_1 =   open_my_files("1.csv","r")
		des_csv_2 =   open_my_files("2.csv","r")
		des_csv_res = open_my_files("res.csv","w")
	
	find_and_write_data_in_res_file(des_csv_1, des_csv_res, line_from_des_csv_2(des_csv_2) )
	
	des_csv_1.close()
	des_csv_2.close()
	des_csv_res.close()

if __name__ == "__main__":
	sys.exit(main())

Написано более трёх лет назад

Sam67 @Sam67 Автор вопроса

Спасибо огромное! Вы очень помогли !

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 199 просмотров
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 212 просмотров
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 73 просмотра
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 104 просмотра
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 96 просмотров
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 117 просмотров
1

ответ
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 463 просмотра
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 3 подписчика
- 05 мар.
- 986 просмотров
4

ответа
Python

Простой
Как запретить удаление полей класса?
- 1 подписчик
- 27 февр.
- 322 просмотра
1

ответ
Python

Простой
Как написать правильный код Pyhton?
- 1 подписчик
- 22 февр.
- 546 просмотров
2

ответа
Показать ещё Загружается…

Python Developer

ITK academy • Краснодар

от 75 000 ₽

Python разработчик

DimaTech Ltd • Краснодар

от 140 000 до 140 000 ₽

Junior AI Automation Engineer / AI-инженер (junior)

OPENCITY • Москва

от 50 000 ₽

Answer 1 · 2018-10-30 16:11:13

Может Вам воспользоватся MS excel или Libree ?
Просто как то странно звучит, что Вам посоветовали использовать питон, но у Вас да же логики по которой работать будет программа нет. Вы вообще пишите на питоне?
Ну как бы тут могут Вам написать программу, но эт как то не честно, делать за Вас работу.

Answer 2 · 2018-10-30 16:23:30

Самый простой вариант:

# представим 1.csv как list из list (здесь разделитель ";" )
with open('1.csv') as f1:
    csv1 = [x.split(';') for x in f1.readlines()]

# 2.csv просто как list
with open('2.csv') as f2:
    csv2 = f2.readlines()

result = []

# для каждого элемента в csv1
for entry in csv1:
# проверяем его 40ой элемент на вхождение в list csv2
    if entry[40] in csv: 
# если да, то перекидываем нужный нам entry в result 
        result.append(entry)

with open('result.csv', 'w') as fo:
        fo.writelines(result)

Тут нет никаких проверок - исходим из того что оба csv не содержат пустых строк и подобного добра :)
Это не самое быстрое решение, но самое наглядное.

Answer 3 · 2018-10-30 19:02:12

Примем, что оба файла в память помещаются. Так?
Сначала читаем

import csv

def read_csv(filename):
  result = set()
  with open(filename, newline='') as f1:
    reader = csv.reader(f1)
    for row in reader:
        result.add(', '.join(row))
  return result

А теперь получаем общее.

def main():
  data1 = read_csv("one.csv")
  data2 = read_csv("two.csv")
  common = data1 & data2

Сохранение в файл писать не буду. Писал прямо в коммент, возможны ошибки.

Как сравнить 2 файла csv на python, что бы из 1 файла сохранились только те строки, которые есть в файле 2?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт