Ответы, понравившиеся пользователю Константин Б.

Как web.telegram.org сделал, что не видно в Network запросов?

Алексей Уколов @alexey-m-ukolov Куратор тега Веб-разработка

Он в websocket-соединении, которое было создано до открытия вами DevTools (или до удаления истории).

Ответ написан более двух лет назад

Комментировать

Как сделать парсер крупных сайтов и маркетплейсов на PHP, обходящий блокировки?

Дмитрий @dbkv

backend developer

Подскажите, что именно стоит изучать, на что акцентировать внимание, какие библиотеки использовать, чтобы создать желательно быстрый парсер маркетплейсов на PHP?

Зависит от ваших текущих знаний. Написать парсер сайтов можно на любом языке программирования, при желание. Удобнее всего, на мой взгляд сделать это на Python с использозованием библиотеки -- https://www.crummy.com/software/BeautifulSoup/bs4/doc/ либо на NodeJS.

Посоветуйте,какой стек использовать, что почитать и изучить, чтобы реализовать следующий функционал:

Python / Request / BeautifulSoup4 либо NodeJS / Axios / node-html-parser. Если осмелитесь писать на PHP, что на мой взгляд крайне не удобно, то guzzle + phpQuery, как вы уже сами и написали.

Также, сейчас на многих сайтах используется технология SPA и клиентский рендеринг. Если в кратцы - то контент на сайт подгружается через API и рендерится с помощью JS. Если в тупую обратиться к такому сайту с сервера (например через curl), то с высокой долей вероятности мы получим пустую страницу.

Для таких сайтов нужно использовать эмуляторы браузеров, например seleniumhq.org или https://pptr.dev/. Биндинги есть на Python и NodeJS, возможно и на PHP.

можно ли будет использовать парсер от Python на PHP сайте?

Да, можно просто написать API на Python и поднять сервис на отдельном поддомене или порту, а далее в JSON-формате возвращать данные на сайт и делать с ними дальнейшие операции.

На счет обхода блокировок. Стоит сказать сразу, что блокировки будут всегда, поэтому при разработке парсера надо обязательно предусмотреть следующее:

1. Каждый запрос рандомизируем заголовки (request headers) и User-Agent. Обязательно. Тут без вариантов.

2. Делаем запросы исключительно через proxy + каждый запрос рандомизируем их. В идеале иметь пулл из ~20 проксей. Крайне желательно чтобы прокси были приватными.

3. Если уперлись в капчу, то делаем повторный запрос с другой прокси, если сайт ни в какую не хочет нас пускать к контенту, то разгадываем капчу. Либо реализуем разгадывание руками пользователя (т.к у вас интерфейс есть), либо с помощью любого сервиса разгадывания капчи, типа https://capmonster.cloud/ru/ или https://rucaptcha.com/.

Надеюсь я смог прояснить некоторые технические детали парсинга сайтов.

Ответ написан более двух лет назад

Как Laravel «понимает» аутентифицирован пользователь или нет?

Rsa97 @Rsa97

Для правильного вопроса надо знать половину ответа

Кука, отправленная клиенту, это всего лишь идентификатор сессии. На сервере с этим идентификатором связано хранилище (по умолчанию - файл для каждой сессии). В этом хранилище содержится связанная с сессией информация, в том числе и статус аутентификации/авторизации пользователя.

Ответ написан более двух лет назад

1 комментарий

Как-то можно убрать csrf в laravel для определенных страниц?

Sanes @Sanes

Человек пишет контент, тратит на это часа 1.5

Подобный материал должен готовиться сначала у себя. Донесите это до своих авторов.

Ответ написан более двух лет назад

4 комментария

Какое оптимальное время въехать в проект?

Сергей Горностаев @sergey-gornostaev

Седой и строгий

От проекта зависит. На моëм проекте например новичкам даже сеньорского уровня до первой простой таски требуется недели две, а выход на 100℅ эффективность занимает 3-6 месяцев.

Ответ написан более двух лет назад

9 комментариев

Как защититься от разных URL запросов в Laravel?

JhaoDa @JhaoDa

LaravelRUS Team

Во-первых, за удаление методом GET тебя ждёт спец. котёл в аду.

Во-вторых, читай документацию ларавел, про мидлвари и политики.

В-третьих, изучай основы HTTP, чтобы знать, как сделать

Например, чтобы в ссылке не было видно ID группы, а само ID отправлялось другим способом, не через URL, и чтобы запросы вида www.site.ru/group/delete/2 не работали.

Войдите на сайт