Есть интернет-магазин с ассортиментом в несколько сотен тысяч товаров. За время работы там появились повторяющиеся товары. Совпадает артикул, название, фото, но цена может отличаться. Или наоборот, совпадает всё, но не название. Суть в том, что есть одна постоянная переменная - артикул. У дублирующихся товаров он всегда совпадает.
Проблема в том, что в ручном режиме отфильтровать такое кол-во позиций и глазами отсмотреть дубли - реально, но на это уйдет слишком много человеко-часов.
Есть ли какой-то скрипт/программа, чтобы выделить повторяющуюся информацию и её можно было уже куда проще удалить, без долгих поисков?
Весь контент может быть представлен как excel таблица, где артикул будет занимать свой столбец. Так что, необходим просто поиск и отбор повторяющихся артикулов, чтобы человеку было проще их обработать.
maddog670, не совсем представляю, как эксель справится с такими объемами + он разве сможет выделить/вывести дубли отдельным столбцом? Видимо, я не так хорошо знаком с программой.
maddog670, то есть по сути в предлагаете выгрузить товары в CSV, открыть в экселе, убрать дубли, удалить товары из базы, загрузить обратно из отредактированного CSV?
После этих операций стоит повесить constraint на поле артикула
Отсортируйте весь список по артикулу. Условным форматированием подсветите повторы. Дальше - либо ручная обработка либо автоматизация макросом или другим способом.
В Excel есть встроенная функция -"Data" -> "Remove Duplicates". Она убирает повторяющиеся значения, указывая на какой столбец ориентироваться. Дальше, на мой взгляд, простой вариант (после того как поймешь как правильно этим чистить) сделать запись макроса с использованием функции и при необходимости его запускать.
Если просто подсветить повторяющиеся артикула - "Home" -> "Conditional Formatting" ->Higtlight Cell Rules" -> "Duplicate Values".