Можете помочь в написании программы для оптимизации работы с большим документом Word?
Добрый день, товарищи программисты. Позвольте сразу сказать, что новичок на этом форуме, а потому прошу понять(и по возможности простить), если делаю что-то не так: задаю глупые вопросы и т.п.
Я студент, профиль которого никак не связан с программированием и точными науками, но у меня появилась потребность в обработке большого текстового документа Word. Если конкретно, то мне нужно написать программу(возможно макрос), который бы позволял выявлять повторения в этом текстовом документе. Поиск вручную отпадает, поскольку данных очень много, больше полутора тысяч позиций. Что бы было понятней, попробую показать наглядно.
Есть документ, в котором содержится информация в виде обзацев и имеет следующий схематический вид:
А
А
В
С
В
D
F
D
и т.п.
Мне нужно в минимальное кол-во действий найти все повторения и исключить их, оставив только один из повторов, т.е. привести данные к виду:
A
B
C
D
и так далее…
Возможно вопрос довольно банальный, но поискав в интернете я не нашел ничего подходящего, кроме обычного поиска(Crtl+F). Но на проверку всех позиций уйдет много времени, поэтому это самый крайний вариант. Подскажите, возможно ли ускорить этот процесс силами Ворда? Или нужны сторонние программы? Если да, то какие?
Заранее благодарю за помощь
А Вы уверены, что абзацы совпадают "с точностью до ять"? а то выглядеть-то они могут - не отличишь, а начнёшь разбираться подробно - так вообще рядом не лежали.
Каков максимальный размер абзацев (в символах)? Можно ли считать абзацы идентичными, если некое количество символов с начала - совпадает, или нужно именно "один в один"?
Все абзацы представляют собой плоский текст, или там понамешано всякого (форматирование, картинки, формулы)?
Дмитрий Добрышин, ну, и вообще-то можно сделать поиск повторяющихся абзацев просто регуляркой в Либре. Просто это объяснять дольше. А попытки проделать то же самое в ворде быстро приведут к пропаганде моносексуализма среди молодежи.
Akina, вот совершенно не факт. Еще раз подчеркиваю: студент и какая-то простыня в ворде с повторами. Скорее всего, Ворд выбран просто потому, что с информацией человек работать не умеет, только кое-как с Офисом.
Adamos, Спасибо вам за ответ. Судя по вашему ответу, а так же последующим комментариям, этот код воспроизводится в Линуксе? Никогда не слышал таких аббревиатур) Не могли бы подробнее объяснить, и желательно без сокращений
И касательно вашего комментария про офис. Как я понял, ворд чем-то уступает другим программам? Если есть что-то более функциональное, я бы с удовольствием попробовал.
Monster83, из этих трех команд две - перевод текста в голый текстовый формат и обратно. Средняя - пропускание этого текста через линуксовую команду, удаляющую дубли строк (а абзацы в тексте превратятся в строки).
Если вам нужно обработать только текст, без форматирования - проще с текстом и работать, а не с офисными форматами. Если в документе все-таки что-то наверстано - тогда сложнее.
За Ворд не скажу, а в ЛибреОффисе реализован поиск регулярными выражениями, что позволяет составить поиск в том числе и повторяющихся абзацев. С заменой, убирающей дубликаты. Программа бесплатна, помощь на русском...