Какую выбрать тактику получения картинки логотипа компании?
Подскажите хорошую идею для получения картинки логотипа по названию компании?
Сейчас реализовал следующую схему.
Парсю выдачу гугла по запросу "Company name" + "official site", получив урл, забираю <head> и там ищу картинку из <link rel="apple-touch-icon"> если нету, то бегу в body и ищу .logo #logo и прочие селекторы по паттерну. Вообще то схема так себе, работает конечно, но в ~25% шлак выдаёт.
Какие ещё могут быть схемы получения логотипа? api на image гугл вроде закрыл. азуре у меня так и не заработал, видимо надо платить, куда можно ещё капнуть, чтобы парсер бил с точностью в 100%?
С точностью в 100% решить эту задачу в принципе невозможно, хотя бы потому, что логотипа может просто не быть в общем доступе или где-то существует соответствующая картинка, никак не помеченная.
Но можно попробовать варианты:
Поиск по Википедии (eng). Там во многих статьям о компаниях приведен логотип. Причем это изображение допускается свободно копировать куда угодно.
Поиск по Гугл-картинкам по запросу < company_name >+logo. Например. Можно дополнительно отфильтровать по размеру или по типу.
1. о wiki думал, но там, по многом компаниям просто нету даже статей
2. гугл да, самый классный вариант, но хочется api к images, а не дёргать страницу выдачи, менять юзерагентов, ip и эмулировать браузеры.. забанит на 10_ом запросе или вывалит каптчу :(
pingo: Гугл быстро банит за Reverse image search (поиск по картинке), точнее даже не банит, а просто редиректит все последующие запросы на главную images.google.com, даже при ручном поиске быстро вычерпывается лимит в несколько запросов (на первые несколько раз помогает чистка cookies, но если много раз чистить, то срабатывает какой-то другой фильтр и очистка перестает помогать).
Что касается основного поиска по строке (не reverse image), то там лимит огромный. Я иногда часами в нем сижу, когда подбираю нужные материалы, с капчей очень редко сталкиваюсь.
nirvimel: ну попробую, а любом случае спасибо..
а что с другими поисковиками? может есть какие чисто картиночные поисковики малоизвестные но достаточно функциональные?
pingo: duckduckgo просто распарсил википедию, взял оттуда картинки, описания и отдает структурированный ответ (а не обычный SERP) при точном соответствии запроса заголовку статьи в вики. Парсинг duckduckgo не даст значительных преимуществ по сравнению с парсингом википедии. С чем вам проще работать решайте сами, лимиты на количество запросов у обоих существуют, но значительно выше чем у Гугла.