Что законно, а что нет и почему — парсинг/индексация? Копирование/кэширование?

Задача - спарсить данные с существующих агрегаторов организаций и сделать свой каталог. Сделать это законно. Возникает два вопроса - спарсить, хранить, а потом показывать эти данные пользователю.

Вроде бы, так делать нельзя, но, если представить созданный каталог как поисковик? Все поисковики парсят сайты, хранят данные на своем сервере и показывают пользователю. Чем каталог отличается от поисковика?

Возможно, дело в отличиях между методами поиска и хранения данных: "Парсим + храним" и "Индексируем + кэшируем":

Этап 1. - "Парсим" или "Индексируем":

1. "Парсим"
Робот-парсер находит данные на сайтах без каких-либо ограничений, игнорируем параметры robots.text, noindex и другие, где возможно, указан запрет на индексацию.

2. "Индексируем" (не нарушаем закон)
Робот-парсер находит данные, которые не запрещены в robots.txt и не закрыты "noindex" и не переходит по ссылкам "nofollow" и т.д. Т.е. соблюдает требования сайта в области индексирования.

Этап 2 - "Храним" или "Кешируем":

1. "Храним"(нарушаем закон)
Результат копируем на наш сервер(сжав фотографии и видео). Потом наш сайт показал их в результатах поиска.

2. "Кешируем"(не нарушаем закон)
Результат копируем на наш сервер (сжав фотографии и видео) и прописываем во внутренней базе нашего сервера к ним данные: а) место, откуда они были взяты б) срок хранения этих данных в кэше.
в) Часть кода и файл robots.txt, чтобы можно было доказать, что кэширование было законно на момент совершения.
Потом наш сайт показал их пользователю в выдаче.
После истечения срока хранения в кеше - наш робот обращается к данным на источнике и, если данные там отсутствуют или закрыты "noindex" или "robots.txt" - удаляет из кеша.

Вцелом вопрос таков, почему сотни поисковиков кеширую (копируют) информацию на свои сервера, не нарушая при этом закон?
  • Вопрос задан
  • 568 просмотров
Пригласить эксперта
Ответы на вопрос 4
Stalker_RED
@Stalker_RED
В сентябре Суд США полностью легализовал скрапинг сайтов и за...
Причем открыть фирму-прослойку с юрисдикцией в США - довольно просто и недорого.

Пока вы отдаете только ссылки на чужой контент, или используете парсинг для внутренних нужд (типа сравнить свои цены с конкурентом, напрмер) - то все хорошо. Если вы делаете копию и отдаете со своего сайта все снова сложно, и зависит от того что именно вы делаете и от наличия злого умысла.
Ответ написан
firedragon
@firedragon
Senior .NET developer
Помниться к Microsoft были претензии по поводу того что они вываливали билеты по прямой ссылке. Так что не все так просто.

Мой совет воруйте наиболее нагло через субподрядчиков и потом делайте (Покерфейс)

Все вышеизложенное ИМХО
Ответ написан
Adamos
@Adamos
Поисковики не выдают пользователю всю информацию, которую нашли на сайте - они предлагают ему отправиться на этот сайт.
Вся ваша техническая эквилибристика не имеет к законности никакого отношения.
Если вы используете чужую интеллектуальную собственность в коммерческих целях без разрешения правообладателя - то какие там у вас кэши и хранение, никого волновать не будет.
Ответ написан
daemonhk
@daemonhk
ПсиХоПат
В чем, простите, нарушение закона, если "все данные взяты из открытых источников"?
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы