Как правильно перебрать записи для устранения дублей?

Question

Станислав @ms-dred

Вечно что то не то и что то не так...

Как правильно перебрать записи для устранения дублей?

Может кто поможет, у меня что то в голову ничего дельного не лезет =(
Есть пол миллиона документов вида

{
 _id: ObjectId(),
 tags: [слово, слово 2, слово 3]
 href: 'ссылка на документ'
}

Title страницы формируется за счет tags, банально tags.join(', '), страницы дубли вылетают из индекса, и возможно пагубно влияют на сайт в целом.
Поэтому куча однотипных страниц, порядка 70 000 тысяч, на них только фото немного разные и всё. Пытался править в ручную, т.е. добавлять, изменять теги, это ужасно, до пенсии точно буду этим страдать =(
Хочу добиться следующего:
1. Определить родителя дублей
2. Получить ссылку на родителя (href)
3. Найти другие дубликаты и создать доп. поле canonical в которое поместить ссылку на родителя

Сейчас делаю отлов дублей следующим образом
Получаю к примеру 500 записей из базы

function getDocuments(request) {
    return Wallpapers.aggregate([
        { $sort: request.sorting },
        { $match: request.query },
        { $skip: request.skip },
        { $limit: request.limit },
        {
            $project: {
                _id: 1,
                href: 1,
                tags: 1
            }
        }
    ])
}

Затем перебираю записи, нахожу дули и пушу их в массив для последующего вывода их на сайте для правки тегов вручную

function cleanUniqueDocument(request) {
    return arr = [], tags = [], Promise.all(request.map( async (e) => {
        return tags.indexOf(e.tags.join(',')) < 0 && tags.push(e.tags.join(',')) || arr.push(e)
    }))
    .then(e => {
        return arr || []
    })
}

Все Ок, на для ручной правки документов на самом сайте, вижу список дублей - правлю его!
Теперь думаю, как автоматизировать процесс чтобы не править теги, а прописать сразу canonical дубликату с URL родителя. По сути нужно вместе с тегами записывать ссылку, т.е. формировать массив объектов, а потом в этом массиве искать дубликаты по тегам, если есть совпадение то в из массива объектом взять URL родителя и изменить документ. Такая у меня каша в голове =( на счет этого всего

Вопрос задан более трёх лет назад
55 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Станислав @ms-dred Автор вопроса

Вроде допехал =)

function cleanUniqueDocument(request) {
    return arr = [], elements = [], Promise.all(request.map( async (e) => {
        return elements.map(function(i) { return i.tags }).indexOf(e.tags.join()) < 0 && elements.push({
            href: e.url,
            tags: e.tags.join()
        }) || (e.canonical = elements.find(x => x.tags === e.tags.join()).href) && arr.push(e)
    }))
    .then(e => {
        return arr || []
    })
}

сделаю кнопочку на простив поста и буду лучше вручную canonical проверять пока что, чтобы не натворить делов. А там уже видно будет.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Node.js для backend-разработки

6 месяцев

Далее
Skillbox

Node.js

2 месяца

Далее
Яндекс Практикум

Бэкенд на Node.js для фронтенд-разработчиков

3 месяца

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+1 ещё

Простой
Как идентифицировать проксированные ошибки?
- 1 подписчик
- 05 дек.
- 122 просмотра
1

ответ
Node.js

+1 ещё

Простой
Какие есть пакеты для генерации уникальных, числовых идентификаторов длиной 10 цифр?
- 1 подписчик
- 10 нояб.
- 289 просмотров
2

ответа
Node.js

+1 ещё

Простой
Перевод бэкенда с PHP на NodeJs?
- 1 подписчик
- 26 окт.
- 462 просмотра
3

ответа
Node.js

+4 ещё

Простой
Как решить ситуацию с импортом файлов во время сборки проекта?
- 1 подписчик
- 15 окт.
- 142 просмотра
0

ответов
Node.js

Средний
Как обойти «засыпание» хостинга для cron-задач Node Js приложения?
- 1 подписчик
- 17 сент.
- 133 просмотра
0

ответов
Node.js

Простой
Почему возникает ошибка при загрузке csv?
- 1 подписчик
- 10 сент.
- 100 просмотров
2

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 307 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 141 просмотр
1

ответ
Node.js

+3 ещё

Сложный
Как считывать данные с принтеров Canon?
- 2 подписчика
- 04 сент.
- 302 просмотра
1

ответ
JavaScript

+1 ещё

Простой
Почему не работает прокси в Axios на Electon JS (в файле preload.js)?
- 1 подписчик
- 04 сент.
- 86 просмотров
0

ответов
Показать ещё Загружается…

Node.js backend разработчик (Middle+/Senior)

DataLouna

от 250 000 до 350 000 ₽

Senior full stack node.js , react

Jiffy

от 2 000 до 3 000 $

Node.js разработчик (middle+/senior)

STARVELL

от 250 000 до 280 000 ₽

Вроде допехал =)
function cleanUniqueDocument(request) { return arr = [], elements = [], Promise.all(request.map( async (e) => { return elements.map(function(i) { return i.tags }).indexOf(e.tags.join()) < 0 && elements.push({ href: e.url, tags: e.tags.join() }) || (e.canonical = elements.find(x => x.tags === e.tags.join()).href) && arr.push(e) })) .then(e => { return arr || [] }) }

сделаю кнопочку на простив поста и буду лучше вручную canonical проверять пока что, чтобы не натворить делов. А там уже видно будет.

Как правильно перебрать записи для устранения дублей?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт