Ответы, понравившиеся пользователю Валерий Мамонтов

Вся сложность парсинга Авито. Как это сделать правильно?

Михаил Р. @Mike_Ro

Python, JS, WordPress, SEO, Bots, Adversting

ну и плавненько дошел до Playwright

Правильно, на нем и оставайтесь.

использование мобильных прокси с ручной ротацией

Мобильные и резиденские прокси - это на данный момент вариант с наибольшим доверием, со стороны анти-бот систем.

А с прокси (Значительно меньше, до 5 мбит/с) сайт еле фурычит, не прогружается и зависает со страшнейшей силой.

В мобильных фермах стоят обычные свистки, размещены друг на друге, без нормальной антенны, поэтому скорость минимальная. Ну и про оверселлинг не забываем.

Стоит купить мобильные прокси получше, или система еще хитрее?

Только методом тыка вы сможете найти нормальный прокси, либо свою ферму делать.

Дайте пожалуйста ваших советов! Как вы обходили блокировки и всю тяжесть парсинга столь укрепленного сайта?

Во первых, это коммерческий секрет. Во вторых, у крупных сервисов либо сторонняя компания осуществляет анти-бот защиту, либо имеется свой отдел защиты, люди там давно воюют с ботами и имеют приличный опыт. В третьих, преодоление защиты это отдельное направление в программирование, которое занимает годы на обучение. Рекомендую почитать Как анти-бот системы определяют ботов и как от них защищаться? . В четвёртых, профессионалы используют кастомный playwright (или cdp аналог), кастомный браузер, кастомную прокси ферму, кастомные паттерны поведения человека.

Ответ написан 26 нояб.

Комментировать

Почему все говорят что писать ботов это сложно?

Vindicar @Vindicar

RTFM!

А сложность начинается, как только задачи, стоящие перед ботом, перерастают уровень примера в ~~документации~~ видеотуториале пятилетней давности.

Нужно сделать несколько под-команд у команды. Напишу цепочку if-elif-else, делов то. Ой, а теперь простыня кода на пять экранов, в которой фиг чего найдёшь. Потому что нет привычки структурировать код.

Нужно, чтобы несколько команд/событий формировали цепочку (сценарий). Например, пользователь отправил тре сообщения, первое с именем, второе с возрастом, третье с адресом. Ой, а как это сделать вообще? Не зная понятия "конечный автомат" (finite state machine, FSM), очень трудно догадаться, как тут поступить.

Нужно, чтобы ботом могли пользоваться несколько человек. Ой, их данные перепутались! Потому что бот использует глобальные переменные.

Нужно, чтобы бот выполнил длительную задачу, и написал сообщение, когда она выполнится. Не вопрос, напишу функцию, вызову её, а сразу после отправлю сообщение. Ой, а бот не отвечает! Потому что рабочий цикл asyncio занят этой длительной операцией и не может отреагировать на поступающие данные. Нужно иметь хорошее представление о том, как работает асинхронная программа.

Нужно добавить боту графический интерфейс - админку. Ой, а работает или интерфейс, или сам бот! Потому что нужно представлять, как устроено большинство GUI-фреймворков, и как устроена асинхронное приложение. А заодно понимать многопоточность, вопросы синхронизации действий между двумя потоками, и особенности работы с asyncio в многопоточных приложениях. Потому что одним потоком тут обойтись будет очень непросто.

Нужно хранить данные в БД. Ой, а почему у меня проблемы при записи в БД имени пользователя? А потому что погромист собирает SQL-запрос через форматирование строк. Надо было почитать доки, чтобы наткнуться на prepared statements, они же parameterized queries.

Нужно хранить данные в БД. Вот только данные имеют связи многие-ко-многим. Я знаю! Я буду просто добавлять или удалять столбцы в таблицу! Потому что не освоены даже азы проектирования БД. Тут уже nuff said. И да, я такое видел на этом сайте.

Незнание средств языка и основных приемов построения алгоритмов и структур данных приводит к диким велосипедам, которые создают больше проблем, чем пользы. Особенно если к этому добавляется нежелание находить и читать документацию на фреймворк, на котором построен бот.

Ответ написан более двух лет назад

2 комментария

Как можно ускорить выполнение этого кода?

Vindicar @Vindicar

RTFM!

Я верно понимаю, что нужно найти слова не короче заданной длины, которые можно составить из букв данного слова?
Во-первых, может иметь смысл сразу отбросить слова, содержащие буквы не из данного слова, чтобы в дальнейшем анализировать только сравнительно допустимые слова. Также может иметь смысл использовать для подсчёта количества букв collections.Counter.

Например, так

from collections import Counter

main_word = 'АКСИЛИРОВАНИЕ' + '\n'  # основное слово + перенос строки, чтобы не вызывать str.rstrip()
main_set = frozenset(main_word)  # множество букв слова без учёта повторов
main_len = len(main_word)
min_length = 8
with open('D:\\Program Files\\Text\\слова\\1.txt', 'r') as f:
    candidates = [  # слова-кандидаты, состоящие из тех же букв и подходящие по длине
        (word, Counter(word))  # само слово и его состав по буквам
        for word in f  # для всех слов в файле
        # проверяем длину слова и соответствие набора букв без учёта их количества
        if min_length<=len(word)<=main_len and main_set.issuperset(word)  
    ]
main_counter = Counter(main_word)  # подсчёт числа букв в основном слове
results = [  # итоговый результат
    word  # те слова
    for word, counter in candidates  # из числа слов-кандидатов
    if all(counter[key] <= main_counter[key] for key in counter)  # у которых нет превышения ни по одной букве
]

Во-вторых, важна структура файла. Например, если строки в файле расположены по возрастанию длины, мы можем попробовать быстренько пропустить короткие слова в начале файла, обработать то, что идёт после, и остановиться, когда дойдём до слов длиннее заданного.
В-третьих, если вместо текстового файла использовать, скажем, pickle-файл, и хранить в нём предрассчитанные количества букв для каждого слова, то это потенциально может ускорить процесс.
Но чтобы проверить скорость работы кода, нужна ссылка на пример файла со словами. И уточни, как обрабатывается буква Ё.

Ответ написан 30 мая

Комментировать

Как просмотреть скрытый sitemap.xml?

Виктор Петров @vpetrov

частный SEO-специалист

Сайт небольшой. Берем Screaming Frog SEO Spider, настраиваем обход по правилам Googlebot-Smartphone, добавляем нужные условия и правила - парсим. Получаем внятный список посадочных страниц.
Сайт настроен до крайности криво, нету там по сути сайтмапа.

Ответ написан 27 мар.

Комментировать

Почему VS Code не распознает, что функция вернет tuple?

Vindicar @Vindicar

RTFM!

Потому что оба оверлоада неразличимы - они ОБА показывают один аргумент типа bool.
И да, а если аргумент не указан, что вернёт функция? Из твоего кода это неясно вообще, так как у тебя два противоречащих варианта.
Тебе надо что-то типа...

@overload
@classmethod
def get_mac_address(cls, with_gateway: typing.Literal[False] = False) -> str:
    ...
@overload
@classmethod
def get_mac_address(cls, with_gateway: typing.Literal[True]) -> tuple[str, str]:
    ...
@classmethod
def get_mac_address(cls, with_gateway: bool = False) -> typing.Union[str, tuple[str, str]]:
    ...

Ответ написан более года назад

3 комментария

Как сделать парсер для excel таблицы?

VoidVolker @VoidVolker

Dark side eye. А у нас печеньки! А у вас?

В графане экспорт в CSV из коробки есть: график -> Inspect -> Data -> Download CSV. Кроме того, если такой вариант не устраивает - у графаны есть API, по которому можно получить любые данные.

Ответ написан более года назад

Комментировать

Как сделать парсер для excel таблицы?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Подскажите, как написать такой парсер, чтобы разбить информацию по ячейкам.

1. Запросить данные с сайта используя requests.
2. Использовать beautifulsoup для парсинга html из п1.
3. Использовать openpyxl для работы с excel.

Ответ написан более года назад

Комментировать

Как с помощью оконных функций преобразовать таблицу?

Olteya @Olteya

Я бы отталкивалась от того, что разница между текущим и предыдущим period_id составляет 1 до смены периода. На строке с period_id = 208 вы получите разницу в 2, в следующий раз на строке с period_id = 211.
Получается, там, где получите значение 2 - это начало нового периода. Предыдущая строка - конец предыдущего периода.
Соответственно вы можете получить таблицу (или CTE) с данными:
period_start period_end row_num
0 206 1
208 209 2
211 214 3
216 218 4
и сджойнить ее с исходной по условию period_start <=period_id (первой табл.)<= period_end.
Может быть не оптимальное решение, но в ночи только это пришло в голову :)

Ответ написан более года назад

Комментировать

Python в запущенный в контейнере работает медленнее натива?

Александр Карабанов @karabanov Куратор тега Docker

Системный администратор

Разница в бинарях - Python на хостовой машине собран без отладочной информации, а тот, который в образе python:3.10.4 собран с нею.

Выходом из ситуации будет - взять базовый образ Debian и установить в него Python из штатного репозитория с помощью штатного пакетного менеджера, тогда результат теста бенчмарка на хостовой машине и в контейнере не будет отличаться.

Можно пойти дальше и собрать Python из исходников самому, но самостоятельная сборка это такое себе развлечение (хотя с помощью pyenv делать это довольно просто), а выигрыш не такой уж и значительный - устанавливать бинарные пакеты сильно проще.

PS
Никогда не используй образы Alpine - там вместо glibc суррогат под названием musl. В прочем для статически слинкованных бинарей на Go использовать можно, но тогда уж выгоднее использовать scratch

Ответ написан более года назад

5 комментариев

Увеличение списка до нужной длинны в pyhon?

Максим Припадчев @Maksim_64

ML Engineer

Обычно когда мы имеем дело с множеством списков разной длинны и нужно выбрать из каждого по индексу то zip_longest из itertools решает проблему. Способов применения может быть много, простейший выглядит вот так

from itertools import zip_longest 
x = [1, 2, 3, 4, 5, 6, 7] 
y = [8, 9, 10] 
z = [9, 3, 4, 5]
list(zip_longest(x,y,z))

Ну а там в зависимости от того как эти списки получаются и что на выходе можно по разному реализовать. zip_longrst имеет параметр fillvalue, чем заполнять по умолчанию None. Ну и надо помнить про распаковку, то есть если все эти списки собраны ну например в какой то один список то можно использовать так.

data = [x,y,z]
list(zip_longest(*data))

Ответ написан более двух лет назад

Комментировать

Как сделать так чтобы данные перезаписывались, а не добавлялись новые?

Максим Припадчев @Maksim_64

ML Engineer

Ты используешь pandas датафрейм, потом начинаешь чего то изобретать. Pandas фрейм имеет метод to_sql https://pandas.pydata.org/docs/reference/api/panda.... Ему надо передать имя таблицы, объект соединения, так же у него есть параметр if_exists, которому можно присвоить значение replace. И будет перезапись.

Раз уж у тебя есть фрейм то и оставайся в рамках датафрема сформируй необходимый подсет. И без cursor.execute отправляй в любую базу в том числе и в sqlite.

Ответ написан более двух лет назад

8 комментариев

Как сделать так чтобы данные перезаписывались, а не добавлялись новые?

Daemon23RUS @Daemon23RUS

"INSERT INTO benz VALUES (?, ?, ?, ?, ?)"
заменить на UPDATE ..... https://www.sqlite.org/lang_update.html
P.S или использовать INSERT ..... ON CONFLICT(ключевое_поле) https://www.sqlite.org/lang_conflict.html

Ответ написан более двух лет назад

Комментировать

Как формировать сырые SQL запросы максимально эффективно?

mayton2019 @mayton2019

Bigdata Engineer

Я в самодельных билдерах запросов добавлял фейковый предикат 1=1 который всегда был. Тогда добавление новых предикатов делается проще. Вот как-то так.

def get_user(*, username: str = None, email: str = None, id: int = None, is_blocked: bool = None):
    SQL = "SELECT * FROM USERS {} LIMIT %s OFFSET %s WHERE 1=1 "
    more = []
    if username:
        more.append("AND username = '%s'" % username)
    if email:
        if any([username]):
            more.append("AND email = '%s'" % email)
    if id:
        if any([username, email]):
            more.append("AND id = '%s'" % id)

Я проверял этот код на валидность. Это лишь идея как сделать. Поэтому исправляй дальше сам.

Ответ написан более двух лет назад

Комментировать

Где научиться профессионально искать и анализировать информацию?

dmshar @dmshar

Современное поколение почему-то твердо уверено, что любой ответ можно найти в интернет. В Гуугл или вот, последняя "панацея" - ChatGPT. Ну, на худой конец, вместо того, что-бы самому подумать, напрячься, поискать информацию, потом подумать, какая из них ложная или нет, потом опять подумать и обработать полученную информацию так, как нужно именно вам (а по дороге еще и хорошо потренировать свой мозг) - предпочитают пойти на форум, задать вопрос, лечь на диван посмотреть какой-нибудь фильмик (вариант - поиграть за компом в игруху) и дождаться, когда ответ преподнесут готовый, разжёванный, проверенный и подготовленный.
Вот только в реальности все не так.
1. Для того, что-бы задать вопрос - надо УЖЕ быть подготовленным, т.е. предварительно быть, что называется "в теме". Как минимум затем, что-бы правильные термины в запросе использовать, как максимум - задавать вопрос так, что бы он не был совсем дурацким.
2. Для того, что-бы из полученной горы информационного шлака извлечь полезную информацию - надо УЖЕ быть подготовленным, т.е. предварительно иметь в теме достаточно знаний и опыта, что-бы понимать, где шлак а где золото.
3. Для того, что-бы полученную информацию приспособить к своим конкретным потребностям - надо УЖЕ быть подготовленным, т.е. понимать свою тему настолько глубоко, что-бы можно было это препарирование сделать.
Неучи подумали - появился ChatGPT - ура, сейчас на любой вопрос получим ответ и будет нам счастье, и учиться не надо! А вот фиг вам. На вопрос - "кто победил на прошлом чемпионате мира", или "как починить кран в умывальнике" - да ответ получите, и скорее всего правильный. А вот там, где надо думать, где вопросы не на фактаж, а на "подумать" - уже явно заметен парадокс: что-бы понять и извлечь пользу из диалога с ChatGPT надо быть умнее самого ChatGPT! Иначе будет не счастье, а горе. Т.е. надо сначала стать специалистом, а потом уже общаться с ИИ. Беда заключается еще и в том, что не понимая этого, надеясь на ИИ или даже на ЕИ (в виде коллективного разума на форуме) конкретный человек отучивается думать самостоятельно. Потому что жить на подсказках - это как жить на наркотиках. Мозг, привыкший к наркоте (подсказкам) перестает вообще развиваться и человек просто деградирует. И вот этом, а не в мифическом восстании ИИ против человечества - основная угроза, которую ИИ и несет человечеству.
Так что ответ на ваши вопросы один - "учиться, учиться и еще раз учиться" - как говорил дедушка Ленин. Самостоятельно и серьезно. Т.е. сначала становимся специалистом хоть в чем-то, а потом думаем, как-же вооружиться инструментом УСИЛЕНИЯ наших знаний в виде Google, ChatGPT (или чего еще на тот момент придумают). А если нет базы - то усиляй не усиляй - все равно на выходе получишь пшик.

Ответ написан более двух лет назад

Комментировать

Где научиться профессионально искать и анализировать информацию?

Виктор Петров @vpetrov

частный SEO-специалист

Во-первых, стоит смотреть информацию по теме OSINT. Много бесплатной, есть и отдельные курсы. Ну, и инструментарий: https://www.exploit-db.com/google-hacking-database
Во-вторых, не надо пользоваться поисковыми системами типа Гугл и Яндекс. Это, в общем, и не поисковые системы, а рекламные - уже давно. Попробуйте вот такое:
https://biznar.com/biznar/desktop/en/search.html
https://www.faganfinder.com/
https://www.social-searcher.com/
Как минимум, мультипоиск явно полезнее, чем привычные псевдо-ПС с их цензурой, рекламой и фильтрацией.

Ответ написан более двух лет назад

Комментировать

Как получить доступ к свойству объекта JSON не зная его название?

Михаил Р. @Mike_Ro Куратор тега Python

Python, JS, WordPress, SEO, Bots, Adversting

Как получить доступ к свойству объекта "extract" не зная его название?

Итерированием объекта (если имеются вложенные объекты, то нужно обходить рекурсивно).

Предположим, у нас имеется json объект, далее мы его итерируем и печатаем ключи и их значения (не зная названия ключей заранее):

data = {
    "batchcomplete": "",
    "query": {
        "pages": {
            "18978754": {
                "pageid": 18978754,
                "ns": 0,
                "title": "Apple",
                "extract": "An apple is a round, edible fruit..."
            }
        }
    }
}

def print_key_value_pairs(obj, indent=0):
    if isinstance(obj, dict):
        for key, value in obj.items():
            print(' ' * indent + f"Key: {key}")
            if isinstance(value, (dict, list)):
                print_key_value_pairs(value, indent+4)
            else:
                print(' ' * (indent+4) + f"Value: {value}")
    elif isinstance(obj, list):
        for index, item in enumerate(obj):
            print(' ' * indent + f"Index: {index}")
            print_key_value_pairs(item, indent+4)

print_key_value_pairs(data)

Ответ написан более двух лет назад

7 комментариев

Правильно ли я понимаю устройство классов в python?

Максим Припадчев @Maksim_64

ML Engineer

Нет у тебя абсолютно не правильное представление по все пунктам. Написание хорошего ответа на каждый вопрос потребует дней, при том что на все эти темы можно разговаривать на совершенно разных уровнях. Если хоть как-то в двух словах.
1. OOP одна из парадигм в программировании в том числе поддерживаемая python.

2. Объект это python абстракция для данных, все данные в python представлены в виде объектов или взаимоотношений между объектами. Отсюда и выражение все в python является объектом.

3. В python каждый класс не явно наследуется от object класс. Да даже если мы не переопределим явно __init__ то он там есть. Например

class MyClass:
    pass
my_instance = MyClass()
print(dir(my_instance))

Там будет в том числе __init__ хотя мы его явно не определяли. __init__ это конструктор класса там могут быть заданы атрибуты которые будут в области видимости экземпляра класса, с которыми будут оперировать методы экземпляра класса, он выполнится при создании экземпляра класса.

4. По скольку, ты еще совсем новичок, понятия "приватных" и "защищенных" атрибутов обсуждать совсем бессмысленно, к тому же их "приватность" она в ковычках, в python нет способа создать настоящий приватный атрибут, но это все совершенно лишнее для тебя сейчас и в обозримом будущем.

5. В зависимости от того является ли определенный метод методом класса или методом экземпляра класса, то первый позиционный параметр метода это класс или экземпляр класса. Между программистами python их принято называть cls - для класса, self - для экземпляра класса. Так как ты в начале пути будешь работать с методами экземпляра класса, да и необходимость создавать методы класса она значительно реже.

Не думаю что тебе хоть что то стало понятней. По этому бери и изучай понимание будет приходить медленно и со временем, а не пытайся понять все вопросы на раз два.

Ответ написан более двух лет назад

3 комментария

Как прокручивать страницу вверх Selenium Python?

coderisimo @coderisimo

Общая идея. Вам нужно крутить колесико (скролл) мыши через JS.
Запихните в driver.execute_script что-то в этом роде :

var evt = document.createEvent('MouseEvents');
evt.initEvent('wheel', true, true); 
evt.deltaY = -100000; 
document.querySelector('.yamb-conversation__content').dispatchEvent(evt);

вместо 10000 можно window.innerHeight.

Ответ написан более трёх лет назад

13 комментариев