Здравствуйте.
Есть сторонний ресурс, пишу парсер+rest api для него.
Вопрос как правильно парсить теги, первое что приходит в голову это тупо спарсить теги со страницы, проверить есть ли каждый тег в таблице если нет записать, если есть использовать тот что в таблице, на следующей странице повторить.
Все просто но мне не нравится большое количество запросов, с вебом работаю очень мало и такое решение кажеться кривоватым.
Как вариант, чтобы уменьшить количество обращений к бд, держать словарь тегов в памяти их около тысячи
Надо смотреть на нагрузку и скорость работы остального, если все остальное очень быстро, тогда можно словарь использовать. В противном случае можно и базу подергать, если с настройками базы все ок, то она и так закеширует частые запросы. Если это уник значения и будет уникальный индекс, то выборка не составит труда, если вдруг будет много-много данных, то можно создать memory table и дергать оттуда, ну или использовать любой дополнительный кеширующий механизм... В любом случае, я думаю что скорость обработки тегов как и сам парсинг не будет горлышком бутылки.. Основной тормоз будет на загрузке страниц.