Задать вопрос

Ичи Ня

Увлекаюсь программированием

20

вклад
15

вопросов
83

ответа
8%

решений

Лайки

Какую уличную IP-камеру в 60 fps, чтобы настроить стрим на YouTube?

Toffic @Toffic

Для трансляции на YouTube без компа нужна IP камера с поддержкой протокола RTMP. Протокол RTSP для этого не подходит. Вот картинка с просторов интернета, иллюстрирующая как это делается.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как сделать парсер крупных сайтов и маркетплейсов на PHP, обходящий блокировки?

Дмитрий @dbkv
backend developer

Подскажите, что именно стоит изучать, на что акцентировать внимание, какие библиотеки использовать, чтобы создать желательно быстрый парсер маркетплейсов на PHP?

Зависит от ваших текущих знаний. Написать парсер сайтов можно на любом языке программирования, при желание. Удобнее всего, на мой взгляд сделать это на Python с использозованием библиотеки -- https://www.crummy.com/software/BeautifulSoup/bs4/doc/ либо на NodeJS.

Посоветуйте,какой стек использовать, что почитать и изучить, чтобы реализовать следующий функционал:

Python / Request / BeautifulSoup4 либо NodeJS / Axios / node-html-parser. Если осмелитесь писать на PHP, что на мой взгляд крайне не удобно, то guzzle + phpQuery, как вы уже сами и написали.

Также, сейчас на многих сайтах используется технология SPA и клиентский рендеринг. Если в кратцы - то контент на сайт подгружается через API и рендерится с помощью JS. Если в тупую обратиться к такому сайту с сервера (например через curl), то с высокой долей вероятности мы получим пустую страницу.

Для таких сайтов нужно использовать эмуляторы браузеров, например seleniumhq.org или https://pptr.dev/. Биндинги есть на Python и NodeJS, возможно и на PHP.

можно ли будет использовать парсер от Python на PHP сайте?

Да, можно просто написать API на Python и поднять сервис на отдельном поддомене или порту, а далее в JSON-формате возвращать данные на сайт и делать с ними дальнейшие операции.

На счет обхода блокировок. Стоит сказать сразу, что блокировки будут всегда, поэтому при разработке парсера надо обязательно предусмотреть следующее:

1. Каждый запрос рандомизируем заголовки (request headers) и User-Agent. Обязательно. Тут без вариантов.

2. Делаем запросы исключительно через proxy + каждый запрос рандомизируем их. В идеале иметь пулл из ~20 проксей. Крайне желательно чтобы прокси были приватными.

3. Если уперлись в капчу, то делаем повторный запрос с другой прокси, если сайт ни в какую не хочет нас пускать к контенту, то разгадываем капчу. Либо реализуем разгадывание руками пользователя (т.к у вас интерфейс есть), либо с помощью любого сервиса разгадывания капчи, типа https://capmonster.cloud/ru/ или https://rucaptcha.com/.

Надеюсь я смог прояснить некоторые технические детали парсинга сайтов.

Ответ написан более двух лет назад
Как задать пользователя для cron?

romy4 @romy4
Exception handler

crontab -u username -e

Ответ написан более трёх лет назад

Комментировать

Комментировать
Парсер на VPS получает код ответа 403. Как исправить?

Dimonchik @dimonchik2013
non progredi est regredi

403 Forbidden

видимо IP VPS ему на нравится, а может и факт VPS

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как спарсить подобный сайт?

fenrir @fenrir1121
Начни с документации

Как спарсить подобный сайт?
Подобный чему?

Сайт может блокировать аккаунты на несколько часов, что и происходит примерно через 30 минут парсинга.
Что за операции, что вам не хватает 30 минут?

Сначала пробовал работать через api сайта.
Демонстрируйте код.

Логинился в селениуме, получал заголовки и делал запросы на нужную мне информацию
Так через api или селениум, вы определитесь.

Можно ли попытаться выдать селениум хром за сафари на iPhone, и есть ли вообще в этом смысл?
Вы сами пишите что парсинг возможен только из под аккаунта и блочится аккаунт. Очевидно сайту все равно сколько устройств вы имитируете, если аккаунт один и тот же.

Ответ написан более трёх лет назад

3 комментария

3 комментария
Как зарегистрироваться в яндексе без номера телефона?

DmitryRed @DmitryRed

В Яндексе есть упрощённая регистрация. С помощью неё можно зарегистрироваться в Яндексе, используя только свою почту (причём можно использовать не только Яндекс Почту).
Действуйте так:
1) Зайдите на yandex.ru
2) Нажмите на кнопку "Войти" (именно "Войти", а не "Зарегистрироваться")
3) В открывшемся окне появятся две кнопки с полями для ввода: "Почта" и "Номер телефона". Выберите "Почта" и введите Ваш e-mail. Яндекс отправит на указанный электронный адрес код с подтверждением. И далее регистрация будет без номера телефона.

Ответ написан более трёх лет назад

2 комментария

2 комментария
Правильная выдача ответа клиенту и продолжение выполнения кода на PHP?

Андрей Буров @BuriK666
Компьютерный псих

Закрывайте php сессию session_write_close()
А лучше используйте php-fpm и fastcgi_finish_request

Ответ написан более трёх лет назад

1 комментарий

1 комментарий

Как правильно организовать очередь с условием?

iNickolay

Николай @iNickolay Автор вопроса

Вообщем, решение, как я и предполагал, простое:

В классе необходимо указать $tries, а вместо исключения вызывать $this->release()

В спойлере код класса:

Job class

class MyQueueJob implements ShouldQueue
{
    use Dispatchable, InteractsWithQueue, Queueable, SerializesModels;

    const TIMEOUT = 10;

    public $tries= 288;

    public $url;

    public $data;

    public function __construct(string $url, $data)
    {
        $this->onQueue('myqueue');

        $this->url = $url;
        $this->data = $data;
    }

    public function handle()
    {
        try {
            $response = Http::withOptions(['verify' => false])
                ->timeout(self::TIMEOUT)
                ->post($this->url, [$this->data]);
        } catch (\Exception $exception) {
            $this->release(300);
        }

        if (isset($response) && $response->failed()) {
            $this->release(300);
        }
    }
}

Команда, выполняемая в supervisor`e:

command=php /laravel/artisan queue:work --queue=myqueue

Ответ написан более трёх лет назад

Комментировать

Комментировать

Проблема с сохранением в csv результата парсинга на Python. Как решить?

PavelMos @PavelMos

Ты создаешь словарь в company , а потом пытаешься взять данные по ключам словаря из объекта soup

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Какую OS выбрать для NAS?

Drno @Drno

Ну ubuntu\debian....
TFTP должен поддерживать в первую очередь Ваш роутер...

Из готового посмотрите openMediaVault
В том числе есть виртуалки и докер...
Там же ничего не мешает поднять там же на голом железе некстклауд и перенастроить веб сервер для работы некстклауда и веб интерфейса

Ответ написан более трёх лет назад

11 комментариев

11 комментариев
Стоит ли переходить с Proxmox на Docker? Какая архитектура более удобна для множества highload проектов?

Юрий Ярош @voidnugget
Программист-прагматик

Ну как-бэ до 100Мбит трафика на ноду - ну совсем не Highload.
Нужно понимать что вопрос сформирован достаточно плохо и сразу видно общее недопонимание темы деплоя и непрерывной интеграции. Советую сначала разобраться с особенностями современных систем оркестрации и управления инфраструктурой: Puppet, Chef, Ansible, SaltStack и OpenStack, потом разобраться как с этим дружить виртуалки и системы управления контейнерами типа XEN, KVM и LXC (Docker). Также советую разобраться с понятием Test Driven Deployment и как оно соотносится с Continuous Integration в целом.

Proxmox - решение которое достаточно плохо масштабируется горизонтально и не располагает средствами оркестрации. Оно предназначено для решений мелкого бизнеса с небольшими нагрузками и посещаемостью, и уж точно не ассоциируется с быстрым разворачиваем кластеров.

В общем большая часть вышеописанного вообще не ассоциируется с реальным highload'ом - от 10ти и до 40Гбит на ноду (чистого REST трафика). PHP для такого - ну совсем не тортъ, но есть проблески типа Phalcon, правда там есть проблемы со стабильностью.

Docker сам по себе не имеет никакого отношения к микросервисным архитектурам, но часто используется для менеджмента контейнеров в таких случаях, хотя можно использовать любое решение для этого. А вообще у микросервисных архитектур есть куча недостатков, и они совершенно не подходят для задач около-реального времени.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Не отображает путь и пользователя Ubuntu terminal, в чем проблема?

ky0 @ky0
Миллиардер, филантроп, патологический лгун

По умолчанию шелл пользователя sh, он без красивостей. Поменяйте в /etc/passwd на что хотите, тот же bash.

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как запустить python скрипт из php на xampp который установлен на Windows?
druzhanja @druzhanja Автор вопроса
Не пойму где меджик но заработало ))

test.py
print "Hello world"

test.php
<?php $python = shell_exec('C:\Python27\python.exe e:\xampp\htdocs\scripts\test.py'); echo "Python is printing: " . $python; ?>

Ответ написан более трёх лет назад

5 комментариев
5 комментариев

Почему запросы к "Балабоба" возвращают 403? И как сделать правильно?

deepblack

deepblack @deepblack Куратор тега Python

Выкидываем requests и используем urllib.request
Рабочий вариант, python 3.8-3.9:

import json
import urllib.request

headers = {
    'Content-Type': 'application/json',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_4) AppleWebKit/605.1.15 '
                  '(KHTML, like Gecko) Version/14.1.1 Safari/605.1.15',
    'Origin': 'https://yandex.ru',
    'Referer': 'https://yandex.ru/',
}


API_URL = 'https://zeapi.yandex.net/lab/api/yalm/text3'
payload = {"query": "Ура Хабр", "intro": 0, "filter": 1}
params = json.dumps(payload).encode('utf8')
req = urllib.request.Request(API_URL, data=params, headers=headers)
response = urllib.request.urlopen(req)
print(response.read().decode('utf8'))

Ответ написан более трёх лет назад

6 комментариев

6 комментариев

Как запустить 5000 потоков параллельно с GET запросами?

Vamp @Vamp

Распараллелить выполнение в самом воркере с помощью ReactPHP или лучше GuzzleAsync. В таком случае не придется держать 5000 воркеров именно

Вариант с GuzzleAsync - самый лучший. Под капотом он использует возможности curl_multi_exec, которые позволяют асинхронно отправлять несколько запросов, не плодя при этом лишние процессы. Не уверен конечно, что осилит 5000 параллельных запросов, но даже если и не сможет, то можно разделить 5000 между несколькими воркерами.

2. "Правильно ли" это вообще делать с помощью PHP или это все таки задача уже других языков которые умеют в параллельное выполнение, корутины? Go, NodeJs?

У вас нагрузка в основном IO bound, так что не имет значения какой язык выбрать. Главное чтобы он поддерживал IO multiplexing (который поддерживается в PHP через вышеупомянутый curl_multi_exec).

3. Может уже есть готовые решения в виде библиотек на PHP? Искал, но не нашел

Guzzle

Ответ написан более трёх лет назад

3 комментария

3 комментария
Какие нюансы работы самозанятым?

Александр Прохорович @alexgp13
Руководитель ИТ-проектов

При устройстве самозанятым четко проговорите с работодателем:
1. Отпуск - условия, оплату, и т.п.
2. Больничные - сколько дней можно болеть без больничного, требуются ли вообще больничные, в каком размере оплачиваются
3. Налоги (Вам должны перечислять дополнительные 6%, которые отдадите в налоговую)
4. Так как работодатель не платит за Вас отчисления в пенсионный и т.п. фонды - он экономит примерно 30% от Вашей зарплаты. Обычно в такой схеме предлагают зарплату чуть-чуть выше рынка. Плохо ли это? Решайте сами.

Нужно понимать, что будучи самозанятым/ИП Вы не имеете официального права на отпуск и на больничные, то есть отдыхаете и болете бесплатно. Но большинство работодателей, работающих по такой схеме, стараются так или иначе компенсировать это.

По поводу трудового кодекса и гарантий - могу рассказать немало историй про увольнение неугодных сотрудников одним днем. Из полностью белых компаний с официальным трудоустройством. И про отсутствие отпусков, и про отсутствие обещанных при трудоустройстве премий.

Про пенсии и "бесплатную" медицину тоже много могу рассказать, к сожалению... Поэтому нужно ли платить пенсионные и страховые отчисления с официальной зарплаты - вопрос очень неоднозначный.

В общем, нравится работа - способ трудоустройства не слишком важен. Захотят кинуть - кинут в любом случае.

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Какие нюансы работы самозанятым?

Илья С @Stalinko Куратор тега Фриланс
PHP'шник и фрилансер до мозга костей

1. Самостоятельное ведение бухучёта, общение с налоговой, выписывание чеков.

2. Отсутствие пенсии, налоговых вычетов, банки очень плохо дают кредиты

3. Налоговая в курсе про эти схемы и пристально следит за ними. Если человек работал на компанию, а потом вдруг стал самозанятым с единственным клиентом - этой же компанией, то это красный флаг для налоговой, о том, что идёт подмена понятий. Нужно быть готовым к этому.

Ответ написан более трёх лет назад

13 комментариев

13 комментариев
Как обработать возникшую ошибку в PHP скрипте загрузки страницы?
Ипатьев @ipatiev Куратор тега PHP
Потомок старинного рода Ипатьевых-Колотитьевых
Это очень хороший вопрос, по многим причинам.

Во-первых, очень хорошо что он сам по себе поставлен. Обычно пользователи РНР не задумываются о таких "мелочах". Но на самом деле об этом должен думать каждый программист, делающий сайты
Во-вторых, здесь мы можем видеть довольно характерный баг Апача, который действительно, почему-то не выполняет директиву ErrorDocument для 500 ошибок, полученных от РНР. Ну и вообще, завязываться на Апач во времена доминирования Нжинкса как-то не очень дальновидно.
В-третьих, как правильно заметил Stalker_RED, сделать редирект при 500 статусе (или 500 статус при редиректе) невозможно - статус может быть только один. Да это и нет смысла делать - проще сразу на месте нужную страницу и прочитать.
В-четвертых, текущий подход, прямо скажем, не очень оптимальный:
- о роботах мы позаботились, о пользователе позаботились, но надо ещё не забыть и программиста. Которому как раз сообщение об ошибке-то нужно видеть во всех подробностях!
- просто отдать нужный НТТР код недостаточно - надо бы ещё и завершить работу скрипта.
- ловить все ошибки вручную через try-catch так себе удовольствие. И код раздувает,и поведение потом быстро не поменяешь. А если в какой-то момент захочется для отладки прикрутить whoops - это придётся по всем блокам бегать?

Чтобы решить все эти проблемы разом, надо сделать единый обработчик ошибок. Который и подробности для программиста залогирует, и нужный заголовок отправит, и красивый хтмл юзеру покажет.

В самом простом варианте это будет что-то вроде такого:

set_exception_handler(function ($e) { error_log($e); http_response_code(500); if (ini_get('display_errors')) { echo $e; } else { include 'pages/error_500.php'; } });

В теории, конечно, можно заменить error handler на глобальный try-catch который оборачивает точку входа, но это менее удобно. Тем более, что для обработки фатальных ошибок нужен свой отдельный обработчик, и в итоге код обработки ошибок начинает занимать довольно значительный объем и лучше конечно его инициализацию вынести отдельно.

Ответ написан более трёх лет назад

Комментировать
Комментировать
Существует ли какой-то общепризнанный подход к обработке ошибок в контексте API, где его можно посмотреть?
Надим @zkrvndm
Архитектор решений
Чем вас не устраивает такой формат?

{ 'success': false, 'message': 'Ошибка такая-то' }

Ответ написан более трёх лет назад

1 комментарий
1 комментарий
Laravel много доменов 1 приложение?
Vladislav @Div100 Автор вопроса
Вообщем вот решение, которое мне нужно было:

$appRoutes = function () { Route::get('/', function ($domain, $tld = null) { //e.g. domain.tld, site.com, localhost, google.com ... }); }; Route::group(['domain' => '{domain}.{tld}'], $appRoutes); Route::group(['domain' => '{domain}'], $appRoutes);

Ответ написан более трёх лет назад

Комментировать
Комментировать

Самые активные сегодня

Пума Тайланд
- 2 ответа
- 0 вопросов
say_TT_plz
- 2 ответа
- 0 вопросов
ImagineTables
- 0 ответов
- 1 вопрос
sssuupppeeee
- 1 ответ
- 0 вопросов
rPman
- 1 ответ
- 0 вопросов
Telcontar
- 1 ответ
- 0 вопросов