Ответы пользователя x67 по тегу «Парсинг»

Как решить проблему с парсингом динамического контента?

x67 @x67

Скажите вашему другу, что ему нужен профессионал, который хотя бы умеет гуглить.
Я не понимаю, с чего вы решили, что имея заголовок вопроса похожий на тысячу других, ваш конкретный случай будет чем-то отличаться?

Ответ написан более трёх лет назад

1 комментарий

Реально ли спарсить товары с одного магазина на вебархиве и форматировать данные в виде sql чтобы затем засунуть это на другой магазин на woocommerce?

x67 @x67

Вы квантовой физикой занимаетесь или парсингом? Откуда шансы? Все должно быть детерминировано. Если знаете как это сделать - сработает. Не знаете - не сработает.
И учитесь правильно ставить задачи, хотя бы для себя. Детали не должны быть лишними.
Попробую сделать это за вас:

Есть два магазина. Один в вебархиве старом (но это не точно), другой на вукомерсе моднявом.
С первого нужно снять все товары, сохранив их структуру и свойства.
Товары сохранить на sql сервере
Прикрутить полученную базу к новому магазину

Теперь пройдитесь по пунктам
1. Веб архив содержит все необходимые страницы? Наверняка нет. Вся ли информация актуальна? Наверняка нет. Значит полностью собрать информацию не получится. Но все что есть на веб архиве, доступно и нам.
2. Вы можете открыть страницу и понять по информации с сайта, к какой группе товаров относится данный? А какие характеристики? Цена? Другие параметры? Все, что вы нашли на сайте будет возможно спарсить. Ответ - да
3. Да
4. Да

Теперь самый важный вопрос: А вы кодить умеете? Уже парсили или только слышали об этом? на SQL запросы пишете? Если нет, то у вас уйдет или много времени или деньги. Что тратить - решайте сами. Если бы ответ был "да", наверное вопроса и не было бы. Библиотеки тут не принципиальны, вам все равно придется это учить.

Ответ написан более трёх лет назад

3 комментария

Как авторизироваться на сайте через скрипт?

x67 @x67

Откройте дебаггер и произведите авторизацию. Посмотрите запрос, который отправляет данные на сайт. Наверняка он отправляет логин, пароль + что-то свое. Причем иногда сайты могут отправлять динамические параметры в целях защиты от автоматической авторизации, но навряд ли это ваш случай. Также отправляться может не пароль, а его хеш. Анализируете запрос и клонируете - его вам надо будет имитировать каждый раз, как только понадобится авторизация. Из библиотек, подойдет даже дефолтная requests из питона. И не нужны никакие селениумы, вы ж не артобстрел воробьиного гнезда собираетесь устроить.

Ответ написан более трёх лет назад

Комментировать

Как создать бота, который сам выполняет действия на определенных сайтах с помощью Javascript?

x67 @x67

Selenium, PhantomJS, решений много. Гуглите, это поможет получать ответы самостоятельно и быстрее.

Ответ написан более трёх лет назад

Комментировать

Чем спарсить post messages с форума microstock.ru?

x67 @x67

Парсером на заказ (а вы программировать умеете?)
онлайн-парсером
парсером из каталога расширений хрома (лично не пользовался, но на удивление там много решений, которые должны быть интересны) по запросам parser, scrapper, spider

Ответ написан более трёх лет назад

Комментировать

Почему не парсится ссылка главной страницы соцсетями и мессенджерами?

x67 @x67

эта статья должна помочь, там написано про шаринг в вк и других соц сетях. Там же про OpenGraph protocol, который за это отвечает.

Ответ написан более трёх лет назад

Комментировать

Как спарсить значения с таблицы при этом разбив их?

x67 @x67

да, возможно через регулярки и xpath. Не знаю, как регулярки выглядят в powershell, но там ведь все просто. В каждом tr в первом td под span находится название параметра, а во втором td - значение. Если нужно знать, к какой группе относится параметр, то вам еще надо извлечь td class Хранить можно хоть в двумерном списке, хоть в дереве. Вот мануал по регуляркам
Я на самом деле не понимаю, вы рассчитываете, что тут сделают за вас вашу работу? Ведь вам по сути нужно было просто найти мануал, прочитать и сделать.

Ответ написан более трёх лет назад

Комментировать

POST запрос в модуле request python?

x67 @x67

Зайдите на сайт в браузере, откройте менеджер запросов (вкладка сеть для ff)
введите логин и пароль, нажмите кнопку. Теперь вам надо найти запрос, который отправился на сервер. Смотрите и анализируете все его хедеры, параметры. Вам нужно программно сделать точно такой же запрос. Причем если какие-то данные не являются статическими, а генерятся во время/ перед выполнением запроса, вам нужно сделать также. Например в запросе помимо логина/пароля может быть текущее время. И для того что бы скрипт работал, вы также должны отправлять это время на сервер.
То, что вы отправляете сейчас, не отправит в таком виде ни один браузер.

Ответ написан более трёх лет назад

1 комментарий

Как скопировать только комментарии и ответы на них под видеороликом на youtube без лишней информации?

x67 @x67

Да, называется такой софт парсерами, грабберами, скрапперами и спайдерами. Чаще всего делается на заказ под конкретный сайт. Что касается гигантов вроде Google, Yandex и прочих, то они не любят, когда их данные воруют без разершения недокументированными методами, поэтому будут всячески препятствовать выполнению задачи.
Если умеете программировать, то вот апи ютуба. Коли нет - закажите у фрилансера. Еще есть уже готовые скрапперы в виде дополнений хром, можно их попробовать. Но на ютубе ajax подгрузка комментов, соответственно навряд ли универсальные решения хорошо справятся с этой задачей.
А если научиться пользоваться гуглом, можно ощутить всю мощь информационной избыточности в сети и возможно даже самому найти готовое решение бесплатно.

Ответ написан более трёх лет назад

Комментировать

Как лучше спарсить информацию с сайта?

x67 @x67

Нафига стероидные качки вроде селениума, когда задача в 5 строчек решается стандартной библиотекой requests. Там же вообще нифига не надо, посылаете GET запрос и получаете ответ в формате JSON. Это же почти открытое апи, ничего сложного и все удобно. Не забывайте хедеры все из браузера скопировать, что бы сайт не ругался (на всякий случай).

Ответ написан более трёх лет назад

Комментировать

Как сделать парсинг страницы каждые 30сек и отдавать результат в XML?

x67 @x67

в терминале:
crontab -e
в редакторе после всех комментов добавить:

* * * * * /usr/bin/python3 parser.py #запуск скрипта каждую минуту
* * * * * (sleep 30;  /usr/bin/python3 parser.py) #запуск скрипта каждую минуту с задержкой в 30 сек

Данные хранить в БД, доступ обращением к БД. Можно еще на jupyterе поднять сервер и его средствами проводить обработку и визуализацию.

Ответ написан более трёх лет назад

Комментировать

Как подать жалобу на сайт, который парсит авторский контент?

x67 @x67

Напишите поисковикам, по идее их должны убрать с раздачи и ценность украденной информации для них упадет

Ответ написан более трёх лет назад

Комментировать

Можно ли извлечь с им базу проданных товаров?

x67 @x67

Базу проданных товаров и покупателей злоумышленник может извлечь в случае грубого нарушения техники безопасности при разработке и развертывании сайта и базы данных. Проверить это самостоятельно без навыков вы не сможете, поэтому важно доверять такие вещи только профессионалам. Любая открытая информация, которую вы видите на сайте без админки может быть похищена. База товаров, которые у вас в наличии, к примеру.

SSL сертификат тут не спасет, он используется для других целей.

Ответ написан более трёх лет назад

Комментировать

Войдите на сайт