Можете помочь в написании программы для оптимизации работы с большим документом Word?

Question

Monster83 @Monster83

Можете помочь в написании программы для оптимизации работы с большим документом Word?

Добрый день, товарищи программисты. Позвольте сразу сказать, что новичок на этом форуме, а потому прошу понять(и по возможности простить), если делаю что-то не так: задаю глупые вопросы и т.п.
Я студент, профиль которого никак не связан с программированием и точными науками, но у меня появилась потребность в обработке большого текстового документа Word. Если конкретно, то мне нужно написать программу(возможно макрос), который бы позволял выявлять повторения в этом текстовом документе. Поиск вручную отпадает, поскольку данных очень много, больше полутора тысяч позиций. Что бы было понятней, попробую показать наглядно.
Есть документ, в котором содержится информация в виде обзацев и имеет следующий схематический вид:
А
А
В
С
В
D
F
D
и т.п.
Мне нужно в минимальное кол-во действий найти все повторения и исключить их, оставив только один из повторов, т.е. привести данные к виду:
A
B
C
D
и так далее…
Возможно вопрос довольно банальный, но поискав в интернете я не нашел ничего подходящего, кроме обычного поиска(Crtl+F). Но на проверку всех позиций уйдет много времени, поэтому это самый крайний вариант. Подскажите, возможно ли ускорить этот процесс силами Ворда? Или нужны сторонние программы? Если да, то какие?
Заранее благодарю за помощь

Вопрос задан более трёх лет назад
834 просмотра

1 комментарий

Подписаться 3 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

7 комментариев

Adamos @Adamos

Дмитрий Добрышин, студент же. У кого-нибудь в группе обязательно стоит Кали :)

Написано более трёх лет назад
Adamos @Adamos

Дмитрий Добрышин, ну, и вообще-то можно сделать поиск повторяющихся абзацев просто регуляркой в Либре. Просто это объяснять дольше. А попытки проделать то же самое в ворде быстро приведут к пропаганде моносексуализма среди молодежи.

Написано более трёх лет назад
Akina @Akina

Боюсь, что "файл Word" предполагает наличие форматирования, которое автор не захочет потерять...

Написано более трёх лет назад
Adamos @Adamos

Akina, вот совершенно не факт. Еще раз подчеркиваю: студент и какая-то простыня в ворде с повторами. Скорее всего, Ворд выбран просто потому, что с информацией человек работать не умеет, только кое-как с Офисом.

Написано более трёх лет назад
Monster83 @Monster83 Автор вопроса

Adamos, Спасибо вам за ответ. Судя по вашему ответу, а так же последующим комментариям, этот код воспроизводится в Линуксе? Никогда не слышал таких аббревиатур) Не могли бы подробнее объяснить, и желательно без сокращений
И касательно вашего комментария про офис. Как я понял, ворд чем-то уступает другим программам? Если есть что-то более функциональное, я бы с удовольствием попробовал.

Написано более трёх лет назад
Adamos @Adamos

Monster83, из этих трех команд две - перевод текста в голый текстовый формат и обратно. Средняя - пропускание этого текста через линуксовую команду, удаляющую дубли строк (а абзацы в тексте превратятся в строки).
Если вам нужно обработать только текст, без форматирования - проще с текстом и работать, а не с офисными форматами. Если в документе все-таки что-то наверстано - тогда сложнее.
За Ворд не скажу, а в ЛибреОффисе реализован поиск регулярными выражениями, что позволяет составить поиск в том числе и повторяющихся абзацев. С заменой, убирающей дубликаты. Программа бесплатна, помощь на русском...

Написано более трёх лет назад
Adamos @Adamos

Monster83, ну нельзя же быть таким беспомощным. Выделил слово - "искать в гугле"...
https://ru.libreoffice.org/

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 535 просмотров
2

ответа
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 469 просмотров
5

ответов
Программирование

+4 ещё

Сложный
Что делать, на QEMU всё летает, а реальный Celeron D умирает?
- 2 подписчика
- 01 июл.
- 515 просмотров
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1291 просмотр
10

ответов
Программирование

Простой
Как создать и использовать свою кодировку знаков?
- 1 подписчик
- 02 июн.
- 724 просмотра
4

ответа
Программирование

+1 ещё

Простой
Проект для программирования?
- 2 подписчика
- 27 апр.
- 874 просмотра
9

ответов
Программирование

Простой
Олимпиадное программирование — с чего начать?
- 1 подписчик
- 18 апр.
- 598 просмотров
2

ответа
Программирование

Простой
Как управлять/хранить изображения для UI?
- 1 подписчик
- 10 апр.
- 314 просмотров
1

ответ
Программирование

+1 ещё

Простой
Стоит ли поступать в вуз на программу по математике, если в будущем хочешь иметь профессию, связанную с программированием?
- 4 подписчика
- 07 мар.
- 3550 просмотров
7

ответов
Программирование

Простой
Как можно оптимизировать загрузку данных?
- 1 подписчик
- 14 февр.
- 405 просмотров
1

ответ
Показать ещё Загружается…

А Вы уверены, что абзацы совпадают "с точностью до ять"? а то выглядеть-то они могут - не отличишь, а начнёшь разбираться подробно - так вообще рядом не лежали.

Каков максимальный размер абзацев (в символах)? Можно ли считать абзацы идентичными, если некое количество символов с начала - совпадает, или нужно именно "один в один"?

Все абзацы представляют собой плоский текст, или там понамешано всякого (форматирование, картинки, формулы)?

Нужно ли сохранять относительный порядок абзацев?

Нужно ли сохранить форматирование?

Answer 1 · 2020-11-29 02:00:50

Необходимо написать функцию (макрос) на встроенном в Word языке программирования - Microsoft Visual Basic for Applications, сокращено VBA.

Задача выглядит довольно стандартной, беглый поиск по "VBA sort remove duplicates +word -excel" находит похожие готовые решения:
https://mozgotron.livejournal.com/74002.html

Answer 2 · 2020-11-24 22:39:37

Adamos @Adamos

libreoffice --headless --convert-to txt file.docx 
cat file.txt | uniq -u > file1.txt
libreoffice --headless --convert-to docx file1.txt

Ответ написан более трёх лет назад

7 комментариев

Answer 3 · 2020-11-25 10:17:58

Максим К @mkvmaks

В стандартном офисе есть функция поиск дубликатов, там же можно их и удалить.

Ответ написан более трёх лет назад

Комментировать

Можете помочь в написании программы для оптимизации работы с большим документом Word?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт