Сравнить два текстовых файла, с исключением повторяющихся строк

Question

Сергей Воронежев @saintfr3ak

Сравнить два текстовых файла, с исключением повторяющихся строк

Задача наверное покажется странной, но надеюсь, что кто-нибудь сможет помочь.

И так, есть два *.txt файла

Первый «base.txt»:

01
02
02
03
04
05

Второй «exceptions.txt»:

04
08
15
16
23
42

Можно ли сделать так, чтобы автоматически удалялись строки с идентичным содержанием из первого файла?
Только вне зависимости от того, находятся ли совпадение на одних и тех же строках по порядку.
В идеале, конечно, чтобы еще и дубли в первом файле удалялись автоматически, но это уже не критично.

В итоге должен получится вот такой: «base.txt»

01
02
03
05

Может посоветуете какую-нибудь годную софтину или плагин? Решение надо найти в рамках OS'ей: Windows 7 / Ubuntu / Centos. И плагин для любой программы, лишь бы работало.

Спасибо.

UPD. до поры до времени спасал grep, теперь ругается на файл исключения (2000 тысячи строк) Regular expression too big

Вопрос задан более трёх лет назад
14527 просмотров

2 комментария

Подписаться 7 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Автоматизация обработки текста

Простой
Существует ли инструмент (система) автоматизации форматирования текста в docx по предопределенным правилам?
- 2 подписчика
- 05 авг. 2025
- 208 просмотров
2

ответа
Android

+2 ещё

Простой
Можно ли восстановить работоспособность смартфона xiaomi на процессоре mtk и прошивке HyperOS(stock), если нужно сохранить пользовательские данные?
- 1 подписчик
- более года назад
- 176 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как автоматически создавать большие отчёты из множества docx файлов?
- 2 подписчика
- более года назад
- 469 просмотров
4

ответа
HTML

+2 ещё

Простой
Как выполнить ëфикацию без сторонних библиотек?
- 2 подписчика
- более года назад
- 710 просмотров
2

ответа
Автоматизация обработки текста

Простой
Какой код вбить, чтобы он склонял определëнное слово да ещë и повсеместно на странице/сайте?
- 2 подписчика
- более года назад
- 91 просмотр
2

ответа
Нейронные сети

+1 ещё

Средний
Как определить ключевые слова из текста?
- 1 подписчик
- более года назад
- 94 просмотра
2

ответа
Поисковая оптимизация

+4 ещё

Средний
Как заполнить таблицу excel?
- 1 подписчик
- более года назад
- 273 просмотра
4

ответа
Автоматизация обработки текста

Простой
Динамическая + стачическая сортировка одновременно возможна?
- 1 подписчик
- более двух лет назад
- 75 просмотров
0

ответов
Программное обеспечение и интернет-сервисы

+3 ещё

Средний
Какой посоветуете софт или сервис для разработки своего приложения для работы с планами инженерных сетей?
- 1 подписчик
- более двух лет назад
- 165 просмотров
3

ответа
Регулярные выражения

+2 ещё

Простой
Как обрезать часть строки в Excel (Пример прикрепляю)?
- 2 подписчика
- более двух лет назад
- 256 просмотров
2

ответа
Показать ещё Загружается…

Уточните — софтинку под какую ось, плагин под какое п/о?
Windows 7 либо Ubuntu или Centos.

Плагин в прицепе тоже все-равно для чего, лишь бы работало. В идеале для Notepad++ на Windows.

Answer 1 · 2013-08-01 10:31:31

Ну плагин вы такой навряд ли найдёте. Задача довольно специфичная. А вот наваять однострок под это дело очень просто:

grep -vf exceptions.txt base.txt | sort -u

выведет вам очищенный base.txt без дублей.
если вам нужно сохранить его обратно в base.txt, но не стоит добавлять > base.txt в конце, нужно действовать через временный файл:

grep -vf exceptions.txt base.txt | sort -u > base.tmp ; mv base.tmp base.txt

Хотя из условия не очень понятно, нужно ли от одинаковых вхождений очищать ещё и exceptions.txt. Если нужно, тогда логика поменяется.

Answer 2 · 2013-08-01 14:52:14

Максим @might

javascript developer

Рекомендую софтину WinMerge

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2013-08-01 20:03:13

Велосипед:

#!/usr/bin/perl

use strict;
use warnings;

die "Usage: $0 filtered.txt filter.txt\n" if @ARGV != 2;

my %filter;

open F, $ARGV[1] or die "Cannot open $ARGV[1]: $!\n";
while(<F>) {
    chomp;
    $filter{$_} = 1;
}
close F;

open F, $ARGV[0] or die "Cannot open $ARGV[0]: $!\n";
while(<F>) {
    chomp;
    print "$_\n" unless $filter{$_};
    $filter{$_} = 1;
}