• Можно ли стянуть такой сайт?

    MisterN
    @MisterN
    Ну, попробуйте погуглить "wget скачивание сайтов" и побалуйтесь. Если выйдет -то ок. Другой вопрос - сможете ли вы это повторить в личных целях. Теоретически дернуть верстку можно. Возникнут ли проблемы на практике - ну надо попробовать, пока проблема не очевидна и не озвучена. Бекенд по определению не доступен, фронт - че б и нет? Будут ли минимизированные файлы потом доступны для понимания и использования - другой вопрос, надо пробовать. Лично я с Vue.js не работал и могу не знать каких-то мешающих скачиванию особенностей. И если вы решили копипостить, то наверняка не один в один и будете че-то менять. Так что первоначально стоит хотя бы по посмотреть на доку по нему. И я не знаю, стоит ли читать про webpack, но он тут вроде используется. Если вас интересуют технологии, то можно.
    А что вас там интересует? Вообще не понял, что на страничке занимательного. Анимация? Ну, запросов на сервер я не уведел, должно получиться.
    Ответ написан
    22 комментария
  • Блокировка DigitalOcean?

    @ynblpb_spb
    дятел php
    Тоже попал под блокировку в DO

    Выход простой
    Топаете в любого отечественного хостера, покупаете самую дешевую VDS с хорошим каналом и настраиваете reverse proxy на nginx приблизительно с таким конфигом:

    server {
            listen                  80;
            server_name             domain.ru;
            
            location / {
                    proxy_pass http://111.111.111.111:80;
                    proxy_connect_timeout                           60;
                    proxy_send_timeout                                      60;
                    proxy_read_timeout                                      60;
                    proxy_redirect                                          off;
                    proxy_buffer_size                                       4k;
                    proxy_buffers                                           4 32k;
                    proxy_busy_buffers_size                         64k;
                    proxy_temp_file_write_size                      10m;
                    proxy_set_header        Host                    $host;
                    proxy_set_header        X-Real-IP               $remote_addr;
                    proxy_set_header        X-Forwarded-For $proxy_add_x_forwarded_for;
            }
    }

    где 111.111.111.111 это IP адрес вашего дроплета в DO

    и для https сайтов

    server {
            listen                  443;
            ssl                     on;
            server_name             domain.ru;
            ssl_certificate      /etc/nginx/ssl/domain.ru.crt;
            ssl_certificate_key  /etc/nginx/ssl/domain.ru.key;
            ssl_protocols SSLv3 TLSv1 TLSv1.1 TLSv1.2;
            ssl_ciphers  "RC4:HIGH:!aNULL:!MD5:!kEDH";
    
            location / {
                    proxy_pass https://111.111.111:443;
                    proxy_connect_timeout                           60;
                    proxy_send_timeout                                      60;
                    proxy_read_timeout                                      60;
                    proxy_redirect                                          off;
                    proxy_buffer_size                                       4k;
                    proxy_buffers                                           4 32k;
                    proxy_busy_buffers_size                         64k;
                    proxy_temp_file_write_size                      10m;
                    proxy_set_header        Host                    $host;
                    proxy_set_header        X-Real-IP               $remote_addr;
                    proxy_set_header        X-Forwarded-For $proxy_add_x_forwarded_for;
            }
    
    }


    такая вот у нас замечательная, страна, конечно...
    Ответ написан
    11 комментариев
  • Изучаю Ruby on Rails. Возник вопрос.Можно ли как то считать содержимое внешней веб-страницы, распарсить ее и необходимые данные записать в БД?

    blackst0ne
    @blackst0ne
    Фулстэк-разработчик
    Можно.
    Распарсить можно разными способами. Самый популярный - nokogiri.

    Обычно такие вещи делаются в фоновых задачах (ActiveJob) с применением, например, сервисов.
    Ответ написан
    1 комментарий
  • Как получить содержимое тега canvas?

    сохранить из канваса в вектор не получится, канвас - это растровое изображение. Для получения растрового изображения(png/webp) можно использовать метод toDataURL
    Ответ написан
    1 комментарий
  • Через сайт вижу содержание тега, парсер не видит, в чём проблема?

    demon416nds
    @demon416nds
    Разработчик на чем попало
    отследите лучше откуда js данные качает
    и качайте напрямую (не забыв замаскироваться под браузер естественно)
    Ответ написан
    3 комментария
  • Парсинг - это open data?

    sergey-gornostaev
    @sergey-gornostaev
    Седой и строгий
    Нет, не является. Является ли поедание хлеба выпеканием?

    Открытые данные (англ. open data) — концепция, отражающая идею о том, что определённые данные должны быть свободно доступны для машиночитаемого использования и дальнейшей републикации без ограничений авторского права, патентов и других механизмов контроля. Освободить данные от ограничений авторского права можно с помощью свободных лицензий, таких как лицензий Creative Commons. Если какой-либо набор данных не является общественным достоянием, либо не связан лицензией, дающей права на свободное повторное использование, то такой набор данных не считается открытым, даже если он выложен в машиночитаемом виде в Интернет.

    Источник

    Проще говоря, если вы выкладываете на сайт ваши данные (тексты, изображения, документы, цены и пр.) без лицензионных ограничений и в таком виде, чтобы их легко было парсить - это open data. А если вы парсите чьи-то данные, то это парсинг.
    Ответ написан
    Комментировать
  • Чем лучше и быстрее парсить Amazon на Python?

    polarlord
    @polarlord
    Занимаюсь парсингом Амазона в промышленных масштабах (сотни тысяч страниц в день). Самая большая проблема не в библиотеках, а в том, что Амазон очень умело выявляет попытки парсинга и при этом постоянно совершенствует собственную технику обнаружения таких попыток. Поэтому самый действенный способ - это иметь в своем распоряжении приличный набор качественных прокси (с теми у которых отличается только последняя секция и номер порта долго работать не получится - попадут в черный список на срок от часа до суток, в зависимости от того как интенсивно будете через них слать запросы).
    По поводу библиотек - выбирайте их в соответствии с вашими потребностями, отталкиваясь от объема запросов которые нужно слать. Самые простые - это всякие requests, urllib, pycurl, multycurl. Ими целесообразно пользоваться в однопоточном и синхронном типе парсеров. Но практически всю работу будете писать руками. Если хотите чуть больше мощности и удобства - посмотрите в сторону Grab. Он может многое, в т.ч. удобно работает с прокси и т.д. Если нужен большой объем и скорость - используйте Scrapy. Крутая штука, но со своими правилами. Однако если нужно будет затачивать под себя - в сети много информации по нему.
    С API Амазон можно и нужно работать. Но есть несколько проблем:
    1. Существует лимит на кол-во обращений(тут подробнее, но можно в одном запросе слать до 10-ти ASIN).
    2. Самое неприятное, что по некоторым товарам (при использовании lookup-методов) инфа не приходит либо отличается от оригинала(сайта). Т.е. не нужно полагаться на то, что АПИ будет возвращать информацию полностью идентичную с их сайтом.
    3. Ограничение на кол-во товаров по которым возвращается инфа (при использовании search-методов). 100 товаров. Дальше - только парсинг. Такое ограничение не только у Амазон, у Ebay так же. Без этого - кол-во всяких дропшиперов и прочих посредников просто зашкалило бы.
    Несколько нюансов:
    -Не пытайтесь выдавать себя за Google Bot, ничего хорошего не выйдет, только потратите время.
    -Использование всяких браузерных технологий, наподобие PhantomJS или даже Selenium, толку не принесет. Там к проблеме IP еще добавятся куки и т.п. По скорости будет медленно, для больших объемов не подойдет.
    -Главное, как уже понятно, обойти систему которая определяет ботов и краулеры. Поэтому импровизируйте, экспериментируйте, думайте головой и ищите свои решения. На том конце сидят тоже люди ) В сети масса советов по этому поводу (можете начать с последнего раздела здесь).
    Ответ написан
    5 комментариев
  • С чего начать изучение искусственного интеллекта?

    devalone
    @devalone
    ̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻
    Изучение искусственного интеллекта?

    На курсере есть годный курс. https://www.coursera.org/learn/machine-learning
    Интересует робототехника, дроны, квадрокоптеры, и т. п

    Тогда ещё нужно изучить основы электроники и программирования микроконтроллеров
    в математике полный ноль, увы

    Тоже придётся подтянуть
    Ответ написан
    3 комментария
  • Как парсить комментарии?

    AlexanderYudakov
    @AlexanderYudakov
    C#, 1С, Android, TypeScript
    Имеет смысл поискать парсер HTML, и работать с DOM-моделью.

    Если парсера HTML нет, можно попробовать парсер XML — возможно, нужный нам фрагмент текста окажется XML-валидным.

    Если не получается разобрать текст как XML, придется писать свой HTML-парсер. Инструкция здесь: https://www.w3.org/html/wg/spec/parsing.html
    Ответ написан
    1 комментарий
  • Как отфильтровывать дубликаты новостей из разных источников?

    @bkosun
    Алгоритм шинглов
    https://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D...

    Расстояние Левенштейна
    https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D...
    Ответ написан
    Комментировать