Задать вопрос
Профиль пользователя заблокирован сроком с 12 апреля 2022 г. и навсегда по причине: спам
  • Как реализовать подобную пагинацию на php?

    Lander, чаще всего это примитивный вариант борьбы с парсерами.
  • Стоит ли создавать сайт-портфолио на GitHub Pages?

    это как? гитхаб давно хостингом стал?

    github pages
    Нет, не очень давно.
  • Как сделать правильную проверку на палиндром?

    Иван Мельников, это два разных слова. Вы значения слова "слово" знаете?
    Если нужно всю строку мешать в одно слово, то тогда вместо for использовать строку:
    word = "".join([''.join(filter(str.isalpha, w)) for w in text])
  • Как загрузить 10.000.000 товаров в интернет-магазин (со ссылкой на внешний сайт)?

    Рустам Байназаров, не перебарщивайте =)
    Евгений, ядра-ядрам рознь. Плюс очень сильно зависит от того, какое кол-во людей планируете обслуживать. Может чисто под БД этих 6 ядер и 12гб ОЗУ хватит, но правда очень сомневаюсь что это все нормально будет работать при тысячах обращений.
    Вообще такие вопросы нужно задавать вам как инвестору (нанимателю), а не вам как "хочу в вордпресс впихнуть 10 лямов записей".
    Единственное, что скажу наверняка - 10 лямов записей, вордпресс и впс за косарь - это настолько несовместимые вещи, насколько это только возможно.
  • Как загрузить 10.000.000 товаров в интернет-магазин (со ссылкой на внешний сайт)?

    10.000.000

    wordpress

    при минимальных затратах на сервер

    Какие-то 3 несовместимые вещи у вас.
  • Парсинг сайта. Как бы вы сделали?

    Никита Полевой, основные:
    1. Медленный. Выкачивал 1000 разных страниц с одного сайта, сохранил локально, дальше - вытаскивал всю информацию с каждой страницы с bs4 и lxml по 50 раз в один поток. lxml справился за ~10 минут, bs4 за ~15 - ощутимая разница, если регулярно парсишь в больших объёмах.
    2. Жрет много ОЗУ. К сожалению часто приходится использовать много процессов парсера, сам по себе bs4 спокойно может занимает ~5 мб ОЗУ, lxml - ~2 мб. У bs4 очень много утечек и и в целом проблемы с расходованием. 1 процесс bs4 во время работы спокойно может потреблять 30-40 мб ОЗУ, за lxml не наблюдал потребление больше 15 мб. Если поискать можно найти много обсуждений потребления bs4 большого кол-ва ОЗУ.
    3. Для меня очень критично - bs4 не умеет в xpath. Шок. Очень часто приходится пользоваться Selenium и раньше, каждый раз когда возвращался к bs4 аж трясло от всех этих уродских селекторов, названий, кучей проблем когда нужно достучаться до элемента, селектор/название которого много раз дублируются на странице - здравствуйте извращения с сиблингами, дочерними/родительскими элементами. lxml спокойно работает с xpath.

    Можно наскрести еще парочку субъективных причин, но и этих 3 более чем достаточно, что-бы отказаться от использования bs4.
  • Парсинг сайта. Как бы вы сделали?

    по моему личному мнению BeautifulSoup

    Я тоже так считал, пока огромное кол-во людей не открыли глаза на то, что bs - это кусок говна неюзабельный.
  • Банит при парсинге ( слишком много запросов). Как исправить?

    DanKud,
    но я говорил о реальных приватных прокси с авторизацией

    Это те, которые стоят овер дохрена и выдаются поштучно? Какой от них толк? Если у сайта рейт лимит, то нужно много прокси, что-бы его парсить и никакие "приват" прокси никогда в жизни тут не помогут.

    но если сайт будет заморачиваться с тем, чтобы его не парсили, то все эти фильтрации будут слишком ресурсозатратными и малоэффективными

    На сайте либо есть рейт лимит, либо его нет, или он очень большой. Рейт лимит обходится только с помощью большого кол-ва прокси, все остальные блоки к прокси никакого значения не имеют.

    все эти фильтрации будут слишком ресурсозатратными и малоэффективными

    Ресурсо-чего? Пропинговать 20к прокси у меня лично занимает около нескольких минут, т.к. обычно я пингую с тайм-аутом в районе 3-4 секунды, на выходе в зависимости от конечного хоста получается 1000-4000 прокси в среднем. На выходе пачка прокси, которая гарантированно работает с конкретным хостом, а покупка прокси - это всегда кот в мешке, т.к. неизвестно кто их юзал за пол часа до вас, не раз натыкался на ситуацию, когда приват прокси уже были блокнуты на разных популярных ресурсах среди парсеров типа елпа.
  • Банит при парсинге ( слишком много запросов). Как исправить?

    Рональд Макдональд,
    Это какой-то сюр, Рональд просит куратора не троллить.

    Сдаёте позиции.

    DanKud, и что мешает выгрести из паблик-прокси пачку на ~20к и перед началом парсинга отфильтровать их? Просто, тупо по-очереди пингануть целевой сайт, если не отдает 200 статус - выкинуть прокси.
    В самом коде еще можно написать простенький ротатор на несколько строк кода, который на каждый реквест будет давать прокси из списка по-порядку, а использованный заносить в конец очереди.
    Можно пойти еще чуть дальше и добавить счетчик, в который заносить бэд-реквесты по каждому прокси и если, к примеру, 3-4 раза прокси не отдал 200 статус - удалить из пула.
    Можно пойти еще дальше и написать парсер паблик-прокси, фильтр по хосту и в случае, когда в пуле заканчиваются прокси запускать процесс сбора и пополнения пула "живых" прокси.

    И кстати, открою тебе тайну - большая часть всех "приват" прокси - это ровно те-же самые отфильтрованные паблик прокси, только есть какая-то небольшая гарантия, что он не навернется в процессе работы, но с ротатором это не страшно.
    И да, если нужна абстрактная гарантия чего-то там, то лучше уже люминати юзать, он хоть просто удобный.
  • Банит при парсинге ( слишком много запросов). Как исправить?

    dmitriyuvin, google - это ресурс для поиска ответов на вопросы. Вы ему вопрос - он вам ответ прям сразу.
  • Быстрый старт в Data Science на курсах от Яндекса?

    metalleg,
    А для того, чтобы какая то область интересовала нужна причина?

    Да, нужна, иначе это обычная хотелка. А хотелки часто заканчиваются разочарованием. Вы собираетесь потратить несколько лет жизни на изучение чего-то абстрактного, даже не знаете что именно вы хотите. Вероятнее всего это вызвано ажиотажем в данном направлении.
    ML и компьютерное зрение использовались в проектах по робототехнике, в которых мне повезло участвовать.

    Так ML вас интересует, или DS? Это совершенно разные направления. Вы уже, видимо, сами запутались чего хотите =)
    Это хорошо, что вам повезло "поучаствовать". Что именно вы делали? Что вам понравилось? Просто атмосфера? Так она есть в миллионе других направлений, эта "атмосфера". Или вы выполняли какие-то прикладные задачи?

    Вот вам тру-стори: мне повезло увлечься компьютерами и программированием в довольно юном возрасте, лет так 15-16 назад, но из-за сильной неразвитости компьютерной техники в целом и в регионе в частности не было ни одного человека, который мог-бы посоветовать мне что-то, в итоге я просто прыгал по своим "хотелкам". Да, начал зарабатывать лет с 15 и делаю это по сей день, но из-за того, что до последнего года я тупо прыгал по "хотелкам" я за эти 15 лет могу написать условный "Hello, World" на ~10 языках, но ни 1 из них не знаю хотя-бы на среднем уровне, в итоге за 15 лет в индустрии мой доход не превышает доход среднего мидла в моём регионе, а это очень мало, если что. Но все-же, как я и сказал, мне повезло начать этим заниматься в раннем возрасте.

    Вам сейчас явно не 10 лет и вы собираетесь выкинуть несколько лет на, по всей видимости, "хотелку".
    Для себя решите - это то, чего вы действительно хотите, с чем хотите связать свою жизнь (условно), или всё-же вы просто поддались ажиотажу и впечатлены условным возможных доходом, или еще чем-то?

    Мне можете не отвечать, ответьте для себя.
  • Как получить 2 образование?

    А корочка лишней не бывает))

    Смешно.
  • Почему Centos 7 не видет модуль python?

    Алексей С., если нужна запись в файл - для этого логирование придумали, а вывод stdout должен идти в консоль, а не в какой-то там файл.
  • Почему Centos 7 не видет модуль python?

    Алексей С., и что? nohup - кусок говна, который сворачивает процесс и не дает возможности к нему подключиться, а что-бы глянуть "че там" нужно лезть в файл, прям очень удобно.
  • Почему Centos 7 не видет модуль python?

    noob222, вот тут почитай: гайд
    и если ответ помог, то отметь его решением.
  • Программы на компьютер улучшающие производительность?

    Ezhyg, каким образом это делает клинер плохим софтом? Неумение пользоваться инструментом не тоже самое, что и плохой инструмент.