Задать вопрос
Ответы пользователя по тегу Парсинг
  • Есть ли готовые парсеры под такую задачу?

    dollar
    @dollar
    Делай добро и бросай его в воду.
    Советую написать простенький скрипт самому.
    Либо попросить у друга-программиста, это займёт максимум 30 мин у него.
    Либо обратиться к фрилансеру.
    Ответ написан
    Комментировать
  • Возможно ли сделать скраппинг информации с сайта, на котором требуется авторизация с помощью расширения браузера (chrome)?

    dollar
    @dollar
    Делай добро и бросай его в воду.
    Вариант 1) Вскрыть их расширение и инжектнуться в код. Как минимум можно как бы открыть свой API из их расширения для своих расширений и юзерскриптов.

    Вариант 2) Рассматривать браузер, как целостное стороннее приложение. Задача сводится к тому, чтобы автоматизировать работу с клавиатурой и мышью. Здесь мы просто уходим от использования JS, как такового, и начинаем анализировать окна на уровне ОС, их элементы, и изображения на них.
    Ответ написан
    Комментировать
  • Как избежать ошибки при парсинге Json файла?

    dollar
    @dollar
    Делай добро и бросай его в воду.
    Видно же, что response['weather'] - это массив, поэтому:
    weather = response['weather'][0]['main']

    TypeError: list indices must be integers

    Логично, речь про индексы массива, они могут быть только числовые.
    Ответ написан
    4 комментария
  • Как умножить/поделить значение между символами строки?

    dollar
    @dollar
    Делай добро и бросай его в воду.
    Нужно пройтись скриптом, а не регулярными выражениями.
    Хотя, в скрипте тоже можно использовать регулярки, но только для поиска, а не для вычислений.

    Подойдёт практически любой язык программирования. Установите себе php, или lua, или node, или компилируемые и т.д.

    Далее вам понадобится помощь программиста. Поспрашивайте в сообществе DayZ, среди играющих друзей. Вам нужен скрипт перебора файлов в папке рекурсивно плюс замена атрибутов по формуле и названию.
    Ответ написан
    Комментировать
  • Как ловить самые лёгкие капчи на боте (Как сделать так чтобы сайт не видел, что ты бот)?

    dollar
    @dollar
    Делай добро и бросай его в воду.
    Надёжно можно решить вопрос с капчами только так:
    иметь больше времени и ресурсов, чем атакуемый сайт
    (это ответ на вопрос, как ловить)

    То есть вам нужно иметь больше денег, чем рамблер. Конечно, меньшее количество ресурсов тоже может прокатить, но это уже называется понадеяться на удачу, то есть долго искать уязвимость, и внезапно может оказаться, что она есть. Так что, в целом, удача - это тоже ответ. Но надеяться на удачу - это такое себе. В этом случае вопрос сводится к "Как найти клад?"

    Поясню ответ. Это война снаряда и брони. Как только вы найдёте способ ловить капчу, она изменится так, чтобы ваш способ перестал работать. Как только это произойдёт, вы постараетесь улучшить свой способ, чтобы он снова заработал. И так далее до бесконечности. Таким образом, любой конкретный ответ здесь - это будет лишь ответ, как выиграть одну битву, но не войну. А вы хотите выиграть именно войну, насколько я понимаю, раз уж говорите про капчи вообще, путь даже и "лёгкие" при первой битве.
    Ответ написан
    Комментировать
  • Почему выдает пустую результат при парсинге веб страницы?

    dollar
    @dollar
    Делай добро и бросай его в воду.
    Вам нужно чуть лучше овладеть навыком отладки своих скриптов.

    Например, банально, кроме console.log(a); можно добавить console.log(html); сразу после того, как в этой переменной что-то должно появиться. Если появилось, то значит что-то не так после этой строки. Если не появилось, то что-то не так до этой строки. Из всевозможных ошибок мы сразу убираем половину.

    Таким образом, методом исключения (то есть каждый раз исключая половину ошибок), можно добраться до того места, где ошибка есть, и дальше будет легко понять её.

    Процесс отладки доступен только тому, кто имеет возможность запустить скрипт в тех условиях, где возникает ошибка. Все остальные люди могут лишь гадать, в чём же дело. Поэтому лучше не задавать вопросы, где для получения ответа нужна отладка. Кроме того, это работа, которую нужно просто сделать, и для которой не нужен эксперт.
    Ответ написан
    Комментировать
  • Можно ли фильтровать JS, который отключает расширение uBlock Origin, использую в связке с selenium?

    dollar
    @dollar
    Делай добро и бросай его в воду.
    Можно.

    Только это война снаряда и брони. Нельзя заранее сказать, кто победит. Вы использовали uBlock, они заблокировали uBlock, вы можете отключить блокиратор uBlock'a, они захотят убрать отключение блокиратора uBlocka, вы затем вырежете то, что убирает отключение блокиратора uBlock'a, они вас за это забанят, вы начнете создавать много аккаунтов, да так, что они не будут успевать банить вручную, на это они создадут алгоритм, который будет определять, что это фейковые аккаунты, вы начнете создавать их очень разными с разных ip через прокси, и т.д. и т.п.

    Спустя годы ваш ИИ будет распознавать любую капчу, но им всегда будет, что ответить. Условно можно считать победителем того, у кого больше времени и прочих ресурсов на эту войну. Даже если вы в итоге окажетесь за решеткой, ваши потомки могут продолжить ваше правое дело. Ну а если потомков нет, то можно считать, что ваши ресурсы истощены и вы проиграли.
    Ответ написан
    3 комментария
  • Как парсить данные с сайта с бесконечной прокруткой?

    dollar
    @dollar
    Делай добро и бросай его в воду.
    Устроить этому сайту реверс инжиниринг, а затем сделать хороший инжект в функцию бесконечной загрузки.

    Это довольно сложная задача. Так что полный ответ будет работой.
    Ответ написан
    3 комментария
  • Как парсить сайты с загрузкой при прокрутке?

    dollar
    @dollar
    Делай добро и бросай его в воду.
    Думаю, лучше перейти с JSOUP на чисто хром.
    Меньше шанс, что что-то сломается.
    Да и проще реализовать, не нужно копаться в (обфускированном?) коде, а достаточно работы с DOM.
    То есть просто делаешь расширение для хрома (личное) - и оно уже во вкладке парсит выдачу яндекса, одновременно прокручивая страницу для подгрузки новых изображений.
    Ответ написан
    Комментировать
  • Как вытягивать информацию из мобильной игры?

    dollar
    @dollar
    Делай добро и бросай его в воду.
    Если доходы компании открытые, то можно смотреть их.
    Иначе можно либо купить эти данные, либо взять у инсайдера (что тоже не бесплатно).

    Вообще вся самая вкусная статистика - платная. Выбирайте: App Annie, Superdata, Newzoo, Datamagic, SensorTower, AppData и т.д.
    Ответ написан
  • Как извлечь JSON объект из содержимого тэга script?

    dollar
    @dollar
    Делай добро и бросай его в воду.
    \\\"
    Это вообще похоже на двойное кодирование.

    Раскодируйте сначала вручную. Да хотя бы в консоли браузера. Плюс такого подхода в том, что вы видите, что у вас на каждом этапе. Вот у меня получилось ещё два JSON'a (а если приглядеться, то всё сложнее):
    5c8dd0b7cc88c092764002.png
    Далее каждый нужно снова декодировать. Удачи.
    Ответ написан
  • Парсинг веб страницы на стороне пользователя (client side), возможно?

    dollar
    @dollar
    Делай добро и бросай его в воду.
    Такое невозможно из-за безопасности браузера.

    Вы бы хотели, чтобы любой сайт в интернете мог обратиться к вашему сайту, используя ваши куки, прочитать личные данные и отослать неизвестно кому? Вся приватность бы рухнула во всём мире в один миг. Магазины, на которые вы заходите, читали бы ваши пароли и постили бы за вас сообщения во вконтакте.

    Единственный выход - делать это на стороне сервера.
    Правда, есть всякие извращения, расширение можно написать своё, но это уже выходит за рамки вопроса.
    Ответ написан
    2 комментария
  • Возможна ли в принципе какая-либо ответственность за парсинг открытых данных?

    dollar
    @dollar
    Делай добро и бросай его в воду.
    Если слишком часто обращаться, можно расценить как DDOS. Но ответственность за это, как правило, - просто бан по ip. Так что бояться не стоит. Это всё равно что бояться обновить страничку гос сайта в браузере 10 раз за минуту. А что, могут сразу выехать по адресу.
    Ответ написан
    Комментировать
  • Как отслеживать новые записи на веб странице и получать уведомления об их появлении?

    dollar
    @dollar
    Делай добро и бросай его в воду.
    Каждую секунду парсить страничку и проверять данные, пока вас не забанят.
    Другого способа нет.
    Ответ написан
    Комментировать