TechNOIR: из бесплатных это написать скрипт или программу и сделать из txt файлов рсс-ленту. И потом импортировать через граббер.
По опыту знаю, что зеброидом проще сделать. Если нужно то скидка на Зеброид: 9A735463AF45F922 - 12.5%
Это дубли. И гугл об этом и говорит. И приводит примеры, как этого избежать, например через каноникал или редирект.
Это из серии дубли или нет:
/index.php
/
Дубли... Адреса страниц разные и соответственно дубли...
Вк... Обработать фото с несколькими людьми..
Если массово, то напарсить из того же ВК и обработать..
Пару раз мспользовал фото с америкосовских сайтов знакомств.
treein: раскопки...))
На своём примере: для 10 отделов было 10 ящиков и плюс работники пользовались личной почтой для пересылки служебных документов..
Сейчас: почта для доменов от яндекса куда собралась почти вся почта со старых ящиков. И все есть и поиск, и старые письма...
2 месяца был вынос мозга от работников, но теперь все ок))
Все остальные сервисы заблокировали и заодно проанализировали старые письма и нашли пару "протечек"..
Kirill Kuznetsov: тор очень медленно работает и часто бажит при парсинге. т.е. часть данных может быть потеряна. Но если учтёте при парсинге, то думаю получится.
Сейчас парсил директ через кейколлектор: спарсил 809 запросов, для каждого определил 3 разных вида запросов. В итоге за всё время вылетело 24 капчи.
Спарсил к этим запросам статистику из Гугла и получил ещё 2 капчи.
В итоге потратил на капчу 2,5 цента Дешевле чем прокси...
Капча ничего не значит. есть же Антикапча и ей подобные сервисов(навскидку посчитал из популярных, набрал5 штук)
И у этих сервисов есть апи))
В основном программы которые специализируются на анализе ключевиков и так предусматривают распознавание капчи. https://anti-captcha.com/apidoc
sivabur: как попроще и покороче...
"Деревянный забор сделан из дерева"
И
"Дерево дерево дерево забор забор забор"
Какой запрос будет больше релевантен для запроса "дерево"?
Второй? Но это же дорвей получается...
Нужно применять правила языка, грамматику, математику, ручное обучение и ПР... Что и делают все нормальные поисковики.. И сейчас есть несколько программ для "обработки текста" которые и пытаются на#бать роботов...
Раньше было достаточно в кейвордс внести пачку ключевиков и на следующий день оказаться в топе.
Потом стало достаточно раз прогнать Хрумером или Аллсубмиттером и оказаться в топе...
Сейчас же только с нормальным контентом... И при этом робот определяет же что это нормальный контент))
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.