Как спарсить выдачу Яндекс.Карт?

Question

Никита Корнилов @Nikkorfed

Full-Stack JavaScript Developer

Как спарсить выдачу Яндекс.Карт?

Добрый день!

Подскажите пожалуйста, как можно спарсить данные со страницы организации в Яндекс.Картах? В частности, нужно взять данные о рейтинге организации и количестве отзывов у неё. Знаю, что есть некое API по ссылке https://yandex.ru/maps/api/business/fetchReviews (нашел его среди вопросов на этом же портале), но это не совсем то. Там выдаются сами отзывы, а нужно то, что написал выше.

Есть одна проблема — Яндекс рендерит элементы на странице постепенно. Когда парсишь её через Simple HTML DOM, она получается пустой. Как это можно обойти? Ведь наверняка выполняется какой-то скрипт, который обращается к ссылке и получает оттуда все эти данные. Не знаю, как с этим справиться.

Вопрос задан более трёх лет назад
7084 просмотра

Комментировать

Подписаться 4 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

4 комментария

Вова Дружаев @OtshelnikFm

Это не php шорткод, а WordPress шорткод

Написано более трёх лет назад
Никита Корнилов @Nikkorfed Автор вопроса

Практически то, что нужно, спасибо. Попробую допилить и заставить работать через curl.

Написано более трёх лет назад
Алексей Горбунов @AGorbunoff

Владимир Дружаев, да, нужно будет допилить

Написано более трёх лет назад

Алексей Горбунов @AGorbunoff

@Nikkorfed, для одного из своих проектов запилил на CURLe.

Выкладываю рабочий скрипт создания шорткода (WordPress) для рейтинга организации.
Важно: работает на библиотеке phpQuery
Шорткод можно создать и для чистого PHP. Здесь есть вариант BBCode.

<?php

/* Вводные данные
* Адрес организации вида: https://yandex.ru/maps/org/---id---
* Class, в котором находится рейтинг: 'orgpage-reviews-view__rating-score'
* Подключить библиотеку phpQuery: https://code.google.com/archive/p/phpquery/
*/

function curlshot_func() {

$get_url = 'https://yandex.ru/maps/org/---id---';
$refer = 'http://google.ru';

$headers = array (
	"Cache-control: no-cache",
	"Upgrade-insecure-requests: 1",
	"DNT: 1",
	"Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp",
	"Connection: keep-alive",
	"Upgrade-Insecure-Requests: 1",
	"Pragma: no-cache",
        "TE: Trailers",
	"Accept-language: ru-RU,ru;q=0.8,en-US;q=0.5,en;q=0.3"
);

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $get_url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
curl_setopt($ch, CURLOPT_ENCODING, 'gzip, deflate');
curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);
/*curl_setopt($ch, CURLOPT_PROXY, '127.0.0.1:8080');
curl_setopt($ch, CURLOPT_PROXYTYPE, CURLPROXY_HTTP);
curl_setopt($ch, CURLOPT_PROXYUSERPWD,'user:pass');*/
curl_setopt($ch, CURLOPT_HEADER, false);
curl_setopt($ch, CURLOPT_REFERER, $refer );
curl_setopt($ch, CURLOPT_COOKIEFILE, __DIR__ . '/cookie.txt');
curl_setopt($ch, CURLOPT_COOKIEJAR, __DIR__ . '/cookie.txt');
curl_setopt($ch, CURLOPT_TIMEOUT, 10);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 30);
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.154 Safari/537.36');
curl_setopt($ch, CURLOPT_VERBOSE,1); 
            
$data = curl_exec($ch);
if ($output === FALSE) {
    // Если что-то пошло не так
    echo 'Упс, ошибочка: ' . curl_error($ch);
    return;
}
$document = phpQuery::newDocument($data);
$element = $document->find('.orgpage-reviews-view__rating-score')->text();
return $element; // не echo, а именно return корректно отображает данные в шорткоде
}
add_shortcode('curlshot', 'curlshot_func');

Скрипт выведет в шорткоде значение рейтинга организации: [curlshot]

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

26 комментариев

Антон Р. @anton_reut

А причем тут "тырить"? Я.карты открыто дают прочитать все данные организации, а человек просто хочет это всё в Эксель загнать.

Написано более трёх лет назад
Никита Корнилов @Nikkorfed Автор вопроса

Что за бред и идиотские суждения с ровного места?

Вроде вежливо и по-человечески спросил как реализовать определенную функцию, которую сам не могу сделать. Мне нужно банально показывать на сайте автосервиса его рейтинг на Яндексе и ссылку на страницу с отзывами. Какая, нахрен, "мелочь", "гадить всем вокруг" и "тырить чужое"? Вы о чём вообще?

Почитал вопросы здесь же на портале — не нашел инфы об этом. Почитал документацию Яндекса — снова не нашел, как это сделать. Пришел сюда и попросил помощи.

Если конкретно вас жизнь чем-то обидела, очень жаль. Вместо того, чтобы изливать всё, что у вас накопилось, могли бы просто сказать, что на данный момент такой возможности нет.

Написано более трёх лет назад
FanatPHP @FanatPHP

Не надо строить из себя наивную дурочку. Всё ты прекрасно понимаешь.
"Мне нужно банально у себя дома кушать картошечку, которую сосед сажал, поливал, собирал, свой труд вкладывал. Я вежливо спросил, как её аккуратно поиметь у себя на столе".

"Как отобразить" - это один вопрос. "Как спарсить, вопреки условиям использования сервиса" - совсем другой.

Написано более трёх лет назад
Никита Корнилов @Nikkorfed Автор вопроса

FanatPHP, вот и выращивайте свою картошечку у себя дома один, вместо того чтобы заниматься взаимовыгодным обменом с соседом. И другим не мешайте ;)

Написано более трёх лет назад
FanatPHP @FanatPHP

Дада, у жадных детей "взаимовыгодное сотрудничество" означает "мне все должны".

Написано более трёх лет назад
Вова Дружаев @OtshelnikFm

FanatPHP, понедельник - день тяжелый?

Написано более трёх лет назад
FanatPHP @FanatPHP

Владимир Дружаев, ага, у всех кто лайкнул мой ответ.
Дело не в том у кого день тяжелый, а в том, что нормальные люди понимают что живут в обществе и не должны гадить вокруг.

Написано более трёх лет назад
Вова Дружаев @OtshelnikFm

нужно взять данные о рейтинге организации и количестве отзывов у неё
- а что тут за кража?
Ну нет у нас централизованного места, где можно официально взять эти данные - вот и собирают их по развалам интернета.
Это же не спарсить объявления с авито и на своем портале разместить. Тут нужны конкретные данные от социума - социальная оценка организации от народа.

Не понимаю что под вами так подгорает стул...

Написано более трёх лет назад
FanatPHP @FanatPHP

Владимир Дружаев, И я не понимаю, где тут кража. Ну взял картошечки у социума. Гуся. Машину покататься. Айфончик новый. А а чо такого?
Ты этот бэкенд, который собирает данные от социума делал? За размешение сервера в датацентре платишь? Нет? Пусть "социум" платит, а ты нахалявку попользуешься?

Ну нет у нас централизованного места

Ты или тупишь или передергиваешь
У яндекса есть апи, через которое можно цивилизованно взять данные. На халяву. Ровно столько, сколько он готов поделиться.
Но вам этого мало, вы хотите спарсить с веб-морды и заставить яндекс еще больше капчами обвешаться. То есть нагадить в итоге всем.

Написано более трёх лет назад
Вова Дружаев @OtshelnikFm

FanatPHP, яндекс капчу повесит и без чужих посягательств. На будущее.

А вы видать во всем кражу видите?

На меня нападать не не нужно и свое хамство оставьте родителям.

Написано более трёх лет назад
FanatPHP @FanatPHP

Владимир Дружаев, смотри ты, заскулил "ни нападайте на миня дядинька". Я вижу кражу там, где она есть. Каждый должен сам решать, как распоряжаться результатами своего труда. Я пишу статьи и выкладываю их в общий доступ. И никак не ограничиваю просмотр. Но если кто-то будет их копировать и использовать для продвижения своего говносайта - это будет западло и воровство. Сам ничего не может сделать, так тырит по карманам у окружающих. С яндексом то же самое. Он дает пользоваться своисм сервисом, всем на халяву. Но утаскивать использовать на своем сайте - нет. И это требование надо уважать.

Написано более трёх лет назад
Вова Дружаев @OtshelnikFm

Вы там то про картошку, то про айфоны невпопад...

Просто не нужно нападать не разобравшись в целях получения данных. Или вы в магазине ножей тоже истерите - "а ими убивают! Вас в тюрьму надо закрывать!" Так получается.

Вообще странно видеть ваши доводы про "Я пишу"... Не пишите. Никто и не заметит. А то что выложено в инет - уже скачают кому надо. И натравят на ваш текст AI. Только вот если обучаться по вашим текстам - выйдет крайне недружелюбное зло.

А про яндекс - нашли кого защищать. Эта корпорация нагнет еще и вас и ваших потомков.

Нашлась тут Грета интернета

Написано более трёх лет назад
FanatPHP @FanatPHP

Владимир Дружаев, ты вертишься ужом, только бы оправдать себя за то что воруешь у своего же брата вебмастера, хотя в глубине души все равно понимаешь что это всё гнилые отмазки. Ну вертись дальше.

Написано более трёх лет назад
Вова Дружаев @OtshelnikFm

FanatPHP, полнолуние только вчера прошло... Что я именно ворую?

Написано более трёх лет назад
Алексей Горбунов @AGorbunoff

FanatPHP, Ваши опасения и пожелания полностью оправданы. Воровать не хорошо. Давайте же разберемся, что есть воровство и кто скорее прав Клиент или Сервис.

Сервис Яндекс Справочник, так-же как и вся IT индустрия развивается постепенно и, возможности извлечь данные о рейтинге средствами APi у них, на сегодняшний день нет!

Мы, как говорится одно дело делаем:) и весь интернет заточен под целевые потребности пользователей и, если для нужд сайта компании, нужны его же собственные данные из открытых источников - это не является кражей и воровством. Мало того, согласно новой политике GDPR пользователь у любого сервиса может запросить экспорт своих данных или потребовать их удаление. Может предъявить, если Сервис его не услышит.

На сегодняшний день, у клиентов возникла потребность структуировать свои данные с разных источников: гугл, яндекс, трипадвизор, соц-сети и так дальше. Никто не собирается взламывать и нагружать эти системы, парсить данные из закрытых разделов, проникать, переписывать их код из разных браузеров через JS. И нет никакого криминала в том, что компания хочет получить свои же данные из открытых источников.

Права на свои данные принадлежат Компании, а не сервису. Можно тогда сервисы де-юре наказывать и штрафовать за то, что они извлекают без разрешения, данные о местоположении, адресе, бренде и так далее. И думаю, подобные разборки (кому принадлежат данные) еще заденет интернет в ближайшие годы, когда GDPR начнет внедряться и у нас в РФ.

Компания не виновна в том, что сервисы отзывов не разработали под каждые потребности индивидуальные APi. Но при этом, данные о компании, во всю эксплуатируются платно и бесплатно.

В данном случае, разработчики решают потребности клиентов доступными способами и конечно, по всем правилам экологии программирования. Главное правило "не навреди" работает не только в медицине.

Я сделал запрос в Яндекс о получении рейтинга Компаний для своих городских проектов. В Яндексе подтвердили, что такого APi у них пока нет, но мое пожелание отправлено в отдел разработки и возможно скоро появится. Ждем обновлений.

Написано более трёх лет назад
Никита Корнилов @Nikkorfed Автор вопроса

Алексей Горбунов, спасибо за такое подробнее разъяснение. Честно говоря, даже и не задумывался о том, что все данные в Яндекс.Справочнике и самом поиске юридически сервису не принадлежат и так же взяты им из других открытых источников. Показывают в своей выдаче те же авторские фотографии с сайтов компаний, например.

Да и действительно, они сами эксплуатируют их так, как им вздумается, и прекрасно зарабатывают на этом. Даже банально — человек ищет информацию о компании, а ему потом показывается таргетированная реклама других услуг из этой же сферы. Хорошая схема заработка получается. Так что грань о законности тех или иных действий, как со стороны частных программистов, так и со стороны крупных компаний, оказывается очень тонкая.

Странно, что получать информацию в обход API они всё же не разрешают, хотя мы и правда не вредим никому. В общем, ждем пока официально завезут такую возможность. А пока — пробуем делать это вручную.

Написано более трёх лет назад
Алексей Горбунов @AGorbunoff

Никита Корнилов, слово "парсить" оскорбляет чувства разработчиков:)) и звучит как крамола в отношении пользовательского соглашения Яндекс. Давай, это слово оставим для хакеров с даркнета, а в профсоюзе будем употреблять такие фразы как: извлечь данные из открытых источников:)

Ведь и в правду, представлю ситуацию как фрилансеры заходят на десятки сервисов и тысячи компаний, чтобы ручками сверить и обновить данные... Пусть лучше в кабинете удаленщика просто жмут кнопку запросить данные и применить.

И это, я считаю, не есть воровство и криминал, ведь данные извлекаются из открытых источников для публикации в открытом же доступе с активной ссылкой на первоисточник. Это как фреймом открыть видео с YOU tube. Не вижу ничего в этом плохого, напротив, сплошные плюсы и Яндексу дополнительный трафик + популяризация платформы в лице владельцев компаний городов.

Написано более трёх лет назад
Алексей Горбунов @AGorbunoff

Никита Корнилов, суд США полностью легализовал скрапинг сайтов и запретил ему технически препятствовать!

https://habr.com/ru/company/globalsign/blog/466911/

Технические меры LinkedIn по блокировке скрапинга мешают контрактам hiQ с собственными клиентами, которые полагаются на эти данные. На юридическом жаргоне это называется «злостным вмешательством в контракт» (tortious interference with contract).

Во как! Если какой-то сайт принимает меры на защиту от скрапинга открытых данных - это злостное вмешательство в контракт. Так что юридически, скрапинг открытых данных здравое дело. И в России похоже судебные иски еще впереди.

Единственное, что парсить нужно как браузер.

Суд не только легализовал эту практику, но запретил мешать конкурентам снимать информацию с вашего сайта в автоматическом режиме, если сайт является общедоступным. Суд подтвердил понятную логику, что заход бота-скрапера юридически не отличается от захода браузера. В обоих случаях «пользователь» запрашивает открытые данные — и что-то делает с ними на своей стороне.

Сейчас многие владельцы сайтов пытаются поставить технические препоны конкурентам, которые полностью копируют их информацию, не защищённую копирайтом. Например, цены на билеты, товарные лоты, открытые профили пользователей и т. д.

Некоторые сайты считают эту информацию «своей», а скрапинг расценивают как «воровство». Юридически это не так, что теперь закреплено официально в США.

Написано более трёх лет назад
Сергей П @trapwalker

Алексей Горбунов, резонно.
Так даже лучше, в общем-то

Написано более трёх лет назад
Никита Корнилов @Nikkorfed Автор вопроса

Алексей Горбунов, очень хорошая новость. Будем знать)

Написано более трёх лет назад
FanatPHP @FanatPHP

осталось понять, какое отношение имеет решение американскго суда к пользовательскому соглашению Яндекса.

Написано более трёх лет назад
Сергей П @trapwalker

FanatPHP, ну решение суда формирует некоторую тенденцию, а яндекс вполне доступен, вроде бы, из США тоже. Так что косвенное отношение имеет.

Написано более трёх лет назад
Алексей Горбунов @AGorbunoff

FanatPHP, судебный прецедент в США послужит для торжества здравого смысла, когда разработчики и их клиенты смогут подавать иски за упущенную выгоду нанесенную несовершенствами действующего законодательства. Ни один закон, ни одно соглашение и договор не могут причинять ущерб и создавать препоны для развития общества и здоровой конкуренции.

Написано более трёх лет назад
FanatPHP @FanatPHP

Алексей Горбунов, дада, отнять и поделить.
Один обеспечивает инфраструктуру, зарплаты, поддержку, актуализацию данных. А второй хочет это всё с первого на халяву. "Здоровая конкуренция", ага.

Написано более трёх лет назад
Алексей Горбунов @AGorbunoff

FanatPHP, Вы не правильно поняли. В контексте не идет речи о халяве или краже контента. Только скрапинг безопасными способами, не в ущерб ресурсу и только открытых данных. Например, этот топик посвящен извлечению данных из отзывов. Это может быть рейтинг компании.

Зайдите в поиск Google напишите любое известное заведение и Вы увидите в карточке Google не только свой рейтинг и отзывы, но и рейтинг Яндекса + Отзовика.

Как Вы считаете, Google нарушил пользовательское соглашение Яндекса, который и сам за милую душу парсит Googl'a. Это позволяет пользователям иметь объективные данные о заведении и служит для развития здоровой конкуренции между заведениями.

Написано более трёх лет назад
GoblinSkills @GoblinSkills

FanatPHP, какая разница делает это человек или код с эмуляцией? Если вас мучает капча, смените браузер, посмотрите через брандмауэр, что от вас исходит и решайте свои проблемы, собирайте данные как остальные и не будет у вас проблем. Яндекс эти данные абсолютно бесплатно получил от людей желающих поделиться с другими, а Яндекс не хочет.. хочешь не хочешь, а придется делиться.

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 129 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 690 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 224 просмотра
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 478 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 256 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 200 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 161 просмотр
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2478 просмотров
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 351 просмотр
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 193 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2020-02-10 12:13:41

Та еще задача: корректно извлекать данные рейтинга организации. Задал вопрос поддержке Яндекса, как это сделать не нарушая правил платформы. Жду ответ и опубликую здесь.

А пока, есть простое решение, извлекать данные посредством PHP шоркода:

<?php 

function rating_function($atts) {
extract(shortcode_atts(array(

  // вставляем ссылку на карточку организации в Яндекс Справочике как есть
  "url" => 'https://yandex.ru/maps/org/<---id организации--->',
), $atts));
  
  $content = file_get_contents($url);
    
	// определяем начало необходимого фрагмента кода, до которого мы удалим весь контент
	$pos = strpos($content, '<div class="orgpage-reviews-view__rating-score">');
 
	// удаляем все до нужного фрагмента
	$content = substr($content, $pos);
 
	// находим конец необходимого фрагмента кода
	$pos = strpos($content, '</div>');
 
	// отрезаем нужное количество символов от конца фрагмента
	$content = substr($content, 0, $pos);
    
  echo $content;
	
	}

add_shortcode('rating', 'rating_function');

?>

Получаем рейтинг в числовом значении и вставляем полученный шорткод куда нужно на сайте: [rating].

P.S.: Только функцию нужно запускать как можно редко;) дабы избежать нагрузки, желательно через периодическое обновление кэша, например, посредством curl закрывая соединение curl_close(); или каждый раз вызывая форму запроса данных в ручную.

Здесь, предлагается одно из решений посредством curl.

Answer 2 · 2020-02-10 09:43:11

НИКАК.
ВЫ задрали уже любители дармовщинки.
Из-за вас сервисами яндекса уже невозможно пользоваться - он все время показывает капчу, которую хрен прочтешь.
Причем яндекс и так дает на халяву, через апи. Но нет - мы нос воротим, мы лучше будем мелочь по карманам тырить, и гадить всем вокруг.

Попробуй хоть раз в жизни сделать что-то своё, а не пытаться тырить чужое.

Как спарсить выдачу Яндекс.Карт?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт