Необходимо посчитать в таблице в Hive не совпадающие значения 2-х столбцов без учета регистра и символов и, желательно, с учетом транслитерации. Т. е. на выходе хотелось бы, чтобы варианты типа L'OREAL - Лореаль, МАРС - Марс, PARMALAT - Пармалат считались как совпавшие, а варианты типа L'OREAL - Пармалат как не совпавшие.
Запрос ниже, на который меня хватает, разумеется, считает их все как не совпавшие. Пробовала сотню разных дополнений к нему, всё не то.
select count (item_id)
from table_1
where column_1 <> table_2