(regexp) Как исключить из поиска ненужные вхождения?

Question

Константин Мельников @K14Mua

(regexp) Как исключить из поиска ненужные вхождения?

Доброго времени суток. Имеется подобное регулярное выражение

("originalText":")(<i>)*([A-Za-z0-9\(\) ',.!?-]+)(</i>)*(","text":")(<)*([А-Яа-я0-9A-Za-z\(\) ,.!?-]+)(</i>\.|</i>)*",

Которое я использую для замены в файле на $1$2$3$4$5$2$7$4",
Файл в одну строку и 10 259 006 символов

Это файл (словарь) перевода игры, который неграмотно перевели машинным переводом. В результате в русском тексте сломались или потерялись теги  , этим регулярным выражением я могу исправить большинство (но не все) ошибки. Но проблема в том что это регулярное выражение делает пустую работу, а именно находит "здоровый" текст и заменяет его на него же. Меняет

"originalText":"English text.","text":"Русский текст.",

на

"originalText":"English text.","text":"Русский текст.",

Можно как то это исправить?

А именно, как исключить из поиска текст, в котором между "originalText":" и ","text":" нет  или 
Поясню на примерах

"originalText":"English text.","text":"Русский текст.",        - Этот текст должно пропуска
"originalText":"<i>English text.","text":"Русский текст.",     - Этот текст должно заменять
"originalText":"English text.</i>","text":"Русский текст.",    - Этот текст должно заменять
"originalText":"<i>English text.</i>","text":"Русский текст.", - Этот текст должно заменять

Моих знаний не хватает что бы написать такое регулярное выражение. Моих знаний не хватает даже что бы как то грамотно составить поисковый запрос что бы найти ответ в гугле. И тут я грамотно заголовок не смог составить...

Вопрос задан 22 нояб. 2024
234 просмотра

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Хекслет

Python-разработчик

10 месяцев

Далее
Учебный центр IBS

RT-001 Эксплуатация RT.DataLake

1 неделя

Далее
Хекслет

Java-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

8 комментариев

Константин Мельников @K14Mua Автор вопроса

Если прибегать к программированию, то я наверно смогу это сделать на C# через замену regexp и IF/ELSE. Но дело в том что мне именно что не хотелось бы прибегать к программированию. Снова качать Visual Studio, настраивать ее и прочее...

Написано 22 нояб. 2024
VoidVolker @VoidVolker

JS - он почти как шарп. Если даже ноду лень качать: у вас вон браузер под рукой - откройте файл, скопируйте текст, откройте консоль в отдельном окне браузера и вставьте текст в переменную. Ну и дальше распрасить и работать с данными. Результат точно так же можно скопировать и сохранить.

Написано 22 нояб. 2024
Константин Мельников @K14Mua Автор вопроса

VoidVolker, гулю шаг 1

Открываем скриптовые файлы JSON
Способ 1: Altova XMLSpy
Способ 2: Notepad++
Способ 3: AkelPad
Способ 4: Komodo Edit
Способ 5: Sublime Text
Способ 6: NFOPad
Способ 7: Блокнот

Мне кажется это не те редакторы что ты имел ввиду

Написано 22 нояб. 2024
VoidVolker @VoidVolker

Константин Мельников, нотпад и саблайм точно поддерживают JSON и его форматирование, остальные не юзал и в спеки не смотрел. А блокнот - это блокнот, там вообще ничего нет. Кроме того, JSON - это не скрипт и не скриптовые файлы, JSON - это формат. Кроме того, можно просто в браузере в консоли вставить в переменную и даже не парсить и далее уже спокойно смотреть свойства уже структурированного объекта.

Написано 23 нояб. 2024
Константин Мельников @K14Mua Автор вопроса

VoidVolker, нотпад который ++? Ну так я им и открываю. Тог я там не вижу никаких специальных команд что б в нормальный вид привести

Написано 23 нояб. 2024
VoidVolker @VoidVolker

Константин Мельников, я, конечно понимаю, что в мануал нотпада религия не позволяет смотреть и читать. Но ведь хотя бы у гугла спросить можно же? Не?

Написано 23 нояб. 2024
Константин Мельников @K14Mua Автор вопроса

VoidVolker, у гугла спросить что?
notepad++ привести json в нормальный вид
Ну ок. Первая ссылка предлагает скачать плагин JSON Viewer. Люблю я все эти плагины и настройки блокнота которые слетают после обновления программы. Так вот это не специальная команда а специальный плагин без которого ничего не сработает. Да и консоли в блокноте я не видел что бы команды вводить

Теперь кстати мое регулярное выражение можно в мусорку выкинуть, оно тут не работает

Написано 23 нояб. 2024
VoidVolker @VoidVolker

Константин Мельников, нуу раз там только через плагин и не хочется его ставить - то и не ставьте плагин. Используйте любой онлайн валидатор/форматтер JSON, любой онлайн редактор кода, да вон как я уже сказал - используйте хоть консоль в браузере. В мире JS, JSON - это уже готовый объект, он его сам распарсит и выдаст сразу объект. Даже делать ничего не надо дополнительно. Регулярку можно просто упростить - оно везде почти одинаково работает.

Написано 23 нояб. 2024

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 287 просмотров
3

ответа
Регулярные выражения

+1 ещё

Простой
Как убрать все точки из текстового файла с помощью регулярных выражений в Notepad++?
- 1 подписчик
- 03 сент.
- 154 просмотра
1

ответ
Регулярные выражения

+1 ещё

Средний
Почему один регэксп работает, а второй нет?
- 1 подписчик
- 03 сент.
- 241 просмотр
4

ответа
Регулярные выражения

Простой
Как работает ленивость в регулярных выражениях?
- 2 подписчика
- 31 авг.
- 230 просмотров
2

ответа
Notepad++

Простой
Поиск совпадений?
- 1 подписчик
- 25 июн.
- 174 просмотра
1

ответ
Notepad++

Простой
Как удалить / слеши в Notepead++ и оставить лишь название файла?
- 1 подписчик
- 23 июн.
- 105 просмотров
1

ответ
Регулярные выражения

Простой
Как удалить часть слов?
- 1 подписчик
- 04 июн.
- 233 просмотра
1

ответ
Регулярные выражения

Простой
Как оставить в строке при помощи регулярки (+еще)?
- 1 подписчик
- 01 июн.
- 150 просмотров
1

ответ
PHP

+1 ещё

Простой
Как в PHP найти строку, которая содержит или не содержит символ?
- 1 подписчик
- 16 мая
- 261 просмотр
2

ответа
Регулярные выражения

+1 ещё

Средний
Как сделать замену текста по ssh?
- 1 подписчик
- 12 мая
- 175 просмотров
0

ответов
Показать ещё Загружается…

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Ведущий Backend-разработчик на Python TechLead / Senior Python Backend Developer

Employ City • Москва

До 500 000 ₽

Программист 1С

Комплект Сервис • Москва

от 180 000 ₽

а зачем? Ну проделает оно холостую работу..
Плюс, если конечный результат - это отсутствие '' и '', то можно без всяких регулярок сделать двойной прогон:
1) заменить '' на пустоту,
2) заменить '' на пустоту.
Или же заменить регуляркой '?i>' за один прогон.

По тому же принципу можно построить 2 регулярки такие:
regex:
"originalText":"([^"]+)"
замена
"originalText":"$1"
и
regex:
"originalText":"([^"]+)<\/i>"
замена
"originalText":"$1"

Зачастую универсальность только вредит. Чем более специализировано решение, тем оно обычно проще

Answer 1 · 2024-11-23 20:53:41

Отвечаю самому себе на вопрос. Решить мою проблему можно так

("originalText":")((<i>)[A-Za-z0-9\(\) ',.!?-]+|[A-Za-z0-9\(\) ',.!?-]+(<\/i>)|(<i>)[A-Za-z0-9\(\) ',.!?-]+(<\/i>))(","text":")(<)*([А-Яа-я0-9A-Za-z\(\) ,.!?-]+)(</i>\.|</i>)*",

Answer 2 · 2024-11-22 23:32:01

Итак, у вас там файл в формате JSON. Это специальный машиночитаемый формат данных. Более правильное решение в вашем случае выглядит следующим образом:

Открываем JSON файл в любом редакторе, который его поддерживает
Приводим его специальной командой в нормальный вид
Смотрим на его структуру и определяем поля, с которыми надо работать - в вашем случае originalText и text

Далее пишем простейший скрипт на JS (или любом другом вашем любимом ЯП) для чтения и парсинга:

import { readFileSync } from "node:fs"
let data, result = []
try {
    data = JSON.parse(readFileSync('file', 'utf8'))
} catch (e) {
    console.error('Ошибка загрузки файла', e)
}

Реализуем требуемую вам логику по работе с текстом:

for(let item of data) // В данном случае, предполагается, что data - это массив
{
    // Полезная работа
}

А после - сохраняем результат в другой файл:
```
fs.writeFileSync("result.json", JSON.stringify(result));
```

Т.о. вся работа сводится к работе с однозначным и конкретным куском текста. У вас классический случай Проблемы XY.

(regexp) Как исключить из поиска ненужные вхождения?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт