Sergei_Erjemin
@Sergei_Erjemin
Улыбайся, будь самураем...

Этические вопрос: парсить сайт или пробовать договориться?

Для исследования, публикации, проекта (нужное подчеркнуть) понадобились данные из открытых источников. Это карточки всех зданий, с их цифрами энергоэффективности, этажностью, полощадь, степень износа пр. пр. пр. Сайт государственный (поддерживается Фондом содействия реформированию ЖКХ, Министерство строительства и ЖКХ и еще кучей организаций, комитетов и ведомств). К сожалению, у них API, как эти данные взять честно, нет (ну или нет информации об этом API). Ко второму сожалению, структура картотеки -- "черный ящик". Т.е.. если парсить с помощью грубой силы, то это проверить 10 млн. карточек, из которых большинство пустые (ну не построено еще столько домов в России). Само собой такая нагрузка при парсинге сайта будет заметна на их стооне. Боюсь, что и 10 запросов в секунду тормознут его серьезно или вовсе уронят (сайты государственных нужд обычно блещут шустростью.).

Пишу я им в саппорт вежливое письмо: ваш сайт прекрасен... вы супер... но вот мне нужны некоторые данные, много данных... И нужда моя в них велика, т.к. делаю я вот-такую-штуку, которая тоже будет отчасти государственно полезна... нужны вот такие поля (перечень). Дескать, у вас источник открытый, государственый, могу и сам взять, но боюсь проблем создать лишними нагрузками. Пришлите если можете таблички-файлики , а ежели невозможно сие, сообщите какие нагрузки по запросам в секунду для вас будут приемлемы...

В ответ тишина.

Вопрос: ждать или начинать парсить? Вообще как с этической стороны вот такие мои намерения?

P.S. Еще можно попробовать искать другие каналы. Когда-то писал для Эксперта и Коммерсанта и у меня остались и корочки Pressa, и корпоративные e-mail. Можно организовать официальный запрос СМИ (и даже, наверное, на бланке). Только это уже совсем подлог получится. Т.е., если надо, статью-то я по результатам анализа написать запросто смогу, только никакого задания редакций под это нет. Кроме того, не факт, что данные дадут , так как, по сути, для СМИ нужны консолидированные отчеты, а не информация по всем объектам. И это логично и справедливо.
  • Вопрос задан
  • 2406 просмотров
Решения вопроса 1
cjbars
@cjbars
У нас была подобная ситуация, только мы сразу начали парсить. И через некоторое время с нами созвонились админы ресурса и предложили готовую базу :-)
Так что в парсинге есть и положительная сторона. К тому же парсить можно аккуратно, но это займет время.
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы