При парсинге статей часто случается что две статьи почти одинаковы или одинаковы, и в таких случаях их нужно как-то объеденить с сохранением смысла и правок.
Я думаю использовать для этого нейронные сети, но не знаю с чего мне начать.
Очень прошу помощи, т.к. в интернете я толковой информации не нашел.
Буду благодарен даже за ссылку (если материал годен для изучения)
Не взлетит. Вон, яндекс пытался "объединить" коротенькие отзывы покупателей (а ведь у них здоровенная база текстов есть!), получалась фигня вида "всё прекрасно, ничего не работает, посоветую друзьям, покупать не буду".
Я думаю что тут есть технический аспект. Символы. Слова. Токены. Сентенсы. Это решается текстовыми алгоримами. Стемминг там. Лемматизация. И есть человеческий аспект. Поэзия там. Литературные стили. Да что там. Даже по матушке послать кого-то можно так деликатно что и ни один ИИ и модератор не заметит. Десыть маму вашу я знал... сударь так и эдак.
Я думаю что тут про AI говорить рано. Можно что-то формализовать. Взять к примеру 2 статьи и вручную их слить и потом уже ставить ИИ задачу на основе того КАК оно было слито. И я думаю тут еще теории будет аж на целую диссертацию.
Ну вот в отрыве от человеческих статей, взять обычный код. Вот есть два файла, между ними какой-то дифф, что-то удалили, что-то добавили. Как не зная целей коммита понять, какой из них был модификация другого?