Помоему существующий подход позволет отсеивать не похожие записи, а идентичные…
Я думаю, что это задача, крайне сложная, если вообще выполнимая и пожалуй это больше не к БД, а к ИИ. Предположим есть два сообщения:
1. Как мне отсивать похожие записи в БД?
2. Какой есть способ предупреждения дублирования записей в БД?
Они похожи?
На мой взгляд лучше всего предоставить решение этой задачи пользователям, например предложив ему перед публикацией взглянуть по ссылке типа «А здесь смотрели», в которой например в порядке реливантности будут идти 5 — 10 ссылок на сообщения, в которых, максимально встречались слова из публикуемого сообщения. Так же можно приспособить для этого теги и искать сообщия не только по словам, но и по тегам (или же вообще только по тегам).
Ну это так, полемика. На практике с таким никогда сталкиваться не приходилось.