Ответы, понравившиеся пользователю Михаил Сисин

Можно ли стянуть такой сайт?

MisterN @MisterN

Ну, попробуйте погуглить "wget скачивание сайтов" и побалуйтесь. Если выйдет -то ок. Другой вопрос - сможете ли вы это повторить в личных целях. Теоретически дернуть верстку можно. Возникнут ли проблемы на практике - ну надо попробовать, пока проблема не очевидна и не озвучена. Бекенд по определению не доступен, фронт - че б и нет? Будут ли минимизированные файлы потом доступны для понимания и использования - другой вопрос, надо пробовать. Лично я с Vue.js не работал и могу не знать каких-то мешающих скачиванию особенностей. И если вы решили копипостить, то наверняка не один в один и будете че-то менять. Так что первоначально стоит хотя бы по посмотреть на доку по нему. И я не знаю, стоит ли читать про webpack, но он тут вроде используется. Если вас интересуют технологии, то можно.
А что вас там интересует? Вообще не понял, что на страничке занимательного. Анимация? Ну, запросов на сервер я не уведел, должно получиться.

Ответ написан более трёх лет назад

22 комментария

Блокировка DigitalOcean?

Danil Sapegin @ynblpb_spb

дятел php

Тоже попал под блокировку в DO

Выход простой
Топаете в любого отечественного хостера, покупаете самую дешевую VDS с хорошим каналом и настраиваете reverse proxy на nginx приблизительно с таким конфигом:

server {
        listen                  80;
        server_name             domain.ru;
        
        location / {
                proxy_pass http://111.111.111.111:80;
                proxy_connect_timeout                           60;
                proxy_send_timeout                                      60;
                proxy_read_timeout                                      60;
                proxy_redirect                                          off;
                proxy_buffer_size                                       4k;
                proxy_buffers                                           4 32k;
                proxy_busy_buffers_size                         64k;
                proxy_temp_file_write_size                      10m;
                proxy_set_header        Host                    $host;
                proxy_set_header        X-Real-IP               $remote_addr;
                proxy_set_header        X-Forwarded-For $proxy_add_x_forwarded_for;
        }
}

где 111.111.111.111 это IP адрес вашего дроплета в DO

и для https сайтов

server {
        listen                  443;
        ssl                     on;
        server_name             domain.ru;
        ssl_certificate      /etc/nginx/ssl/domain.ru.crt;
        ssl_certificate_key  /etc/nginx/ssl/domain.ru.key;
        ssl_protocols SSLv3 TLSv1 TLSv1.1 TLSv1.2;
        ssl_ciphers  "RC4:HIGH:!aNULL:!MD5:!kEDH";

        location / {
                proxy_pass https://111.111.111:443;
                proxy_connect_timeout                           60;
                proxy_send_timeout                                      60;
                proxy_read_timeout                                      60;
                proxy_redirect                                          off;
                proxy_buffer_size                                       4k;
                proxy_buffers                                           4 32k;
                proxy_busy_buffers_size                         64k;
                proxy_temp_file_write_size                      10m;
                proxy_set_header        Host                    $host;
                proxy_set_header        X-Real-IP               $remote_addr;
                proxy_set_header        X-Forwarded-For $proxy_add_x_forwarded_for;
        }

}

такая вот у нас замечательная, страна, конечно...

Ответ написан более трёх лет назад

12 комментариев

Изучаю Ruby on Rails. Возник вопрос.Можно ли как то считать содержимое внешней веб-страницы, распарсить ее и необходимые данные записать в БД?

blackst0ne @blackst0ne

Фулстэк-разработчик

Можно.
Распарсить можно разными способами. Самый популярный - nokogiri.

Обычно такие вещи делаются в фоновых задачах (ActiveJob) с применением, например, сервисов.

Ответ написан более трёх лет назад

1 комментарий

Как получить содержимое тега canvas?

Николай @healqq

сохранить из канваса в вектор не получится, канвас - это растровое изображение. Для получения растрового изображения(png/webp) можно использовать метод toDataURL

Ответ написан более трёх лет назад

1 комментарий

Через сайт вижу содержание тега, парсер не видит, в чём проблема?

Дмитрий @demon416nds

Разработчик на чем попало

отследите лучше откуда js данные качает
и качайте напрямую (не забыв замаскироваться под браузер естественно)

Ответ написан более трёх лет назад

3 комментария

Парсинг - это open data?

Сергей Горностаев @sergey-gornostaev

Седой и строгий

Нет, не является. Является ли поедание хлеба выпеканием?

Открытые данные (англ. open data) — концепция, отражающая идею о том, что определённые данные должны быть свободно доступны для машиночитаемого использования и дальнейшей републикации без ограничений авторского права, патентов и других механизмов контроля. Освободить данные от ограничений авторского права можно с помощью свободных лицензий, таких как лицензий Creative Commons. Если какой-либо набор данных не является общественным достоянием, либо не связан лицензией, дающей права на свободное повторное использование, то такой набор данных не считается открытым, даже если он выложен в машиночитаемом виде в Интернет.

Источник

Проще говоря, если вы выкладываете на сайт ваши данные (тексты, изображения, документы, цены и пр.) без лицензионных ограничений и в таком виде, чтобы их легко было парсить - это open data. А если вы парсите чьи-то данные, то это парсинг.

Ответ написан более трёх лет назад

Комментировать

Чем лучше и быстрее парсить Amazon на Python?

polarlord @polarlord

Занимаюсь парсингом Амазона в промышленных масштабах (сотни тысяч страниц в день). Самая большая проблема не в библиотеках, а в том, что Амазон очень умело выявляет попытки парсинга и при этом постоянно совершенствует собственную технику обнаружения таких попыток. Поэтому самый действенный способ - это иметь в своем распоряжении приличный набор качественных прокси (с теми у которых отличается только последняя секция и номер порта долго работать не получится - попадут в черный список на срок от часа до суток, в зависимости от того как интенсивно будете через них слать запросы).
По поводу библиотек - выбирайте их в соответствии с вашими потребностями, отталкиваясь от объема запросов которые нужно слать. Самые простые - это всякие requests, urllib, pycurl, multycurl. Ими целесообразно пользоваться в однопоточном и синхронном типе парсеров. Но практически всю работу будете писать руками. Если хотите чуть больше мощности и удобства - посмотрите в сторону Grab. Он может многое, в т.ч. удобно работает с прокси и т.д. Если нужен большой объем и скорость - используйте Scrapy. Крутая штука, но со своими правилами. Однако если нужно будет затачивать под себя - в сети много информации по нему.
С API Амазон можно и нужно работать. Но есть несколько проблем:
1. Существует лимит на кол-во обращений(тут подробнее, но можно в одном запросе слать до 10-ти ASIN).
2. Самое неприятное, что по некоторым товарам (при использовании lookup-методов) инфа не приходит либо отличается от оригинала(сайта). Т.е. не нужно полагаться на то, что АПИ будет возвращать информацию полностью идентичную с их сайтом.
3. Ограничение на кол-во товаров по которым возвращается инфа (при использовании search-методов). 100 товаров. Дальше - только парсинг. Такое ограничение не только у Амазон, у Ebay так же. Без этого - кол-во всяких дропшиперов и прочих посредников просто зашкалило бы.
Несколько нюансов:
-Не пытайтесь выдавать себя за Google Bot, ничего хорошего не выйдет, только потратите время.
-Использование всяких браузерных технологий, наподобие PhantomJS или даже Selenium, толку не принесет. Там к проблеме IP еще добавятся куки и т.п. По скорости будет медленно, для больших объемов не подойдет.
-Главное, как уже понятно, обойти систему которая определяет ботов и краулеры. Поэтому импровизируйте, экспериментируйте, думайте головой и ищите свои решения. На том конце сидят тоже люди ) В сети масса советов по этому поводу (можете начать с последнего раздела здесь).

Ответ написан более трёх лет назад

5 комментариев

С чего начать изучение искусственного интеллекта?

devalone @devalone

̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻

Изучение искусственного интеллекта?

На курсере есть годный курс. https://www.coursera.org/learn/machine-learning

Интересует робототехника, дроны, квадрокоптеры, и т. п

Тогда ещё нужно изучить основы электроники и программирования микроконтроллеров

в математике полный ноль, увы

Тоже придётся подтянуть

Ответ написан более трёх лет назад

3 комментария

Как парсить комментарии?

Александр Юдаков @AlexanderYudakov

C#, 1С, Android, TypeScript

Имеет смысл поискать парсер HTML, и работать с DOM-моделью.

Если парсера HTML нет, можно попробовать парсер XML — возможно, нужный нам фрагмент текста окажется XML-валидным.

Если не получается разобрать текст как XML, придется писать свой HTML-парсер. Инструкция здесь: https://www.w3.org/html/wg/spec/parsing.html

Ответ написан более трёх лет назад

1 комментарий

Как отфильтровывать дубликаты новостей из разных источников?

bkosun @bkosun

Алгоритм шинглов
https://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D...

Расстояние Левенштейна
https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D...

Ответ написан более трёх лет назад

Комментировать

Войдите на сайт