Каким образом можно обойти ограничение по запросам к серверу в секунду?

Question

addison-cochran @addison-cochran

Каким образом можно обойти ограничение по запросам к серверу в секунду?

Хочу спарсить всю стенку одной группы ВКонтакте. Там много записей.
Узнал, что есть метод wall.get, но его можно вызвать всего лишь 2500 раз в сутки. Этого недостаточно.
Потом узнал про то, что с мобильной версии при прокрутке страницы вниз выполняется такой запрос:
POST https://m.vk.com/clubXYZ?offset=35&own=1
Попробовал через requests - работает. Убрал own=1 - работает.
Также узнал, что ВКонтакте грузит всего 10 постов.
Т.е. если у группы 70'000 постов, то придется сделать 7'000 запросов. Каждый запрос выполняется за 0.2 c -> 23 минуты (а таких групп очень много)
Решил использовать потоки - не помогло, потоки с proxy - не помогло, асинхронные запросы - тоже.
Пробовал асинхронные запросы с прокси, но там костыль на костыле и все равно ничего не работает.
Что можно предпринять для того, чтобы ВКонтакте не банил мои запросы?
И как правильно использовать прокси, если это нужно?

Код

import random
import asyncio
import aiohttp
import aiohttp_socks
from aiohttp import ClientSession
from aiohttp_socks import SocksConnector
import pickle

storage = []

proxies = ['46.4.96.137:1080', '134.0.116.219:1080', '207.154.231.212:1080', '207.154.231.213:1080', '138.68.161.60:1080', '82.196.11.105:1080', '178.62.193.19:1080', '188.226.141.127:1080', '207.154.231.211:1080', '207.154.231.216:1080', '88.198.50.103:1080', '188.226.141.61:1080', '188.226.141.211:1080', '176.9.119.170:1080', '207.154.231.217:1080', '138.68.161.14:1080', '138.68.165.154:1080', '176.9.75.42:1080', '95.85.36.236:1080', '138.68.173.29:1080', '139.59.169.246:1080']


async def fetch(url, i):
    l = 1
    while l < 10000:
        await asyncio.sleep(random.randint(0, 10))
        proxy = random.choice(proxies)
        # print(proxy)
        try:
            async with ClientSession(connector=SocksConnector.from_url('socks5://' + proxy)) as session:
                async with session.post(url, data={'offset': i}, proxy='http://' + random.choice(proxies)) as response:
                    s = await response.read()
                    l = len(s)
                    print(l)
        except aiohttp.client_exceptions.ServerDisconnectedError:
            await asyncio.sleep(3)
        except aiohttp_socks.proxy.errors.ProxyError:
            await asyncio.sleep(3)
    storage.append(s)
    return s


async def bound_fetch(sem, url, i):
    # Getter function with semaphore.
    async with sem:
        await fetch(url, i)


async def run(r):
    url = 'https://m.vk.com/sketch.books'
    tasks = []
    # create instance of Semaphore
    sem = asyncio.Semaphore(1000)

    # Create client session that will ensure we dont open new connection
    # per each request.
    for i in range(0, r + 1, 10):
        # pass Semaphore and session to every GET request
        task = asyncio.ensure_future(bound_fetch(sem, url, i))
        tasks.append(task)

    responses = asyncio.gather(*tasks)
    await responses


number = 70610
loop = asyncio.get_event_loop()

future = asyncio.ensure_future(run(number))
loop.run_until_complete(future)

print(len(storage))
with open('sketch_books_2.vk', 'wb') as f:
    pickle.dump(storage, f)

Вопрос задан более трёх лет назад
450 просмотров

16 комментариев

Подписаться 2 Простой 16 комментариев

Сергей Соколов @sergiks Куратор тега ВКонтакте

Вроде 5000 в сутки
https://vk.com/dev/data_limits

Написано более трёх лет назад
addison-cochran @addison-cochran Автор вопроса

Сергей Соколов, да, но этого не хватит. (У меня тут скромная идея - спарсить весь ВКонтакте)

Написано более трёх лет назад
Сергей Соколов @sergiks Куратор тега ВКонтакте

addison-cochran, запастись терпением и аккаунтами?

Написано более трёх лет назад
IninsaY @IninsaY

addison-cochran, нифига себя, та вам жизни не хватит. Также узнал, что ВКонтакте грузит всего 10 постов. - если долистать страницу донизу, то захвачиваются все посты

Написано более трёх лет назад
addison-cochran @addison-cochran Автор вопроса

Сергей Соколов, пока у меня не иссякли силы, я буду пытаться использовать proxy и aiohttp. Теоретически, возможно ли с помощью прокси обойти бан ВКонтакте за очень частое обращение к нему? Какие прокси нужно использовать? Подойдут ли HTTP, HTTPS, SOCKS4, SOCKS5? (Начал группы парсить. В теории за 85 часов данные о всех группах будут у меня. Потом посмотрю, сколько активных групп, сколько нет)

Написано более трёх лет назад
Сергей Соколов @sergiks Куратор тега ВКонтакте

addison-cochran, я как-то собирал все группы ВК, вроде быстрее получилось. Интересовала открытость и число участников.

Написано более трёх лет назад
addison-cochran @addison-cochran Автор вопроса

Сергей Соколов, сейчас во ВКонтакте примерно 191793656 групп. За один (execute) запрос можно получить инфрмацию о 25 * 500 = 12'500 групп. На один запрос тратится 8 - 20 с. Да пусть даже в среднем 13 с. Тогда понадобится 55 часов.

Написано более трёх лет назад
Сергей Соколов @sergiks Куратор тега ВКонтакте

addison-cochran, на 1 запрос не так долго.. Я с VPS запускал, довольно шустро отработало. Делал на PHP, в 3 параллельных потока запрашивал через curl_multi

Написано более трёх лет назад
Сергей Соколов @sergiks Куратор тега ВКонтакте

Сейчас топовая группа только что создана 191798900

Написано более трёх лет назад
addison-cochran @addison-cochran Автор вопроса

Сергей Соколов, вы 3 аккаунта для этого создали?

Написано более трёх лет назад
Сергей Соколов @sergiks Куратор тега ВКонтакте

addison-cochran, нет, все по-белому, от одного аккаунта. Лимит же 3 запроса в секунду. Вот 3 и уходит. Обрабатываются они дольше секунды, поэтому следующую пачку в 3 можно отправлять сразу по завершении.

Написано более трёх лет назад
addison-cochran @addison-cochran Автор вопроса

Сергей Соколов, серьезно? Можно было отправлять 3 запроса в секунду одновременно? Спасибо за информацию. Я продолжу дальше изучать.

Написано более трёх лет назад
addison-cochran @addison-cochran Автор вопроса

Сергей Соколов, Я провел свой анализ и получил почти такую же картину.

Но количество групп c одинаковым числом участников может быть разным.
Пример - у нас есть 5 групп с одинаковым числом участников (40)
у нас есть 3 групп с одинаковым числом участников (60)
у нас есть 6 групп с одинаковым числом участников (80)
у нас есть 5 групп с одинаковым числом участников (100)

Если начертить график, то получится, что на оси y = 5, где ось OY - количество групп, будет две точки - 40 и 100
Поэтому я усреднил значения и получил

Вобщем, тоже самое

Написано более трёх лет назад
Сергей Соколов @sergiks Куратор тега ВКонтакте

addison-cochran, круто, коллега! : )
Что дальше с этими данными делать, вот вопрос.

Написано более трёх лет назад
addison-cochran @addison-cochran Автор вопроса

Сергей Соколов, хочу исследовать зависимость количества постов, комментариев от количества участников.

Написано более трёх лет назад
Сергей Соколов @sergiks Куратор тега ВКонтакте

addison-cochran, имхо только от численности четких закономерностей не выявить..

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Средний
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- 58 минут назад
- 19 просмотров
0

ответов
API

Простой
API Avito передача x-avito-messenger-signature в Webhook по какому алгоритму?
- 1 подписчик
- 12 часов назад
- 61 просмотр
0

ответов
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- вчера
- 181 просмотр
1

ответ
Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 18 окт.
- 180 просмотров
3

ответа
API

Простой
На каком языке лучше писать api (читайте описание)?
- 1 подписчик
- 17 окт.
- 221 просмотр
2

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 130 просмотров
0

ответов
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 140 просмотров
1

ответ
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 519 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 110 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 141 просмотр
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Вроде 5000 в сутки
https://vk.com/dev/data_limits
Сергей Соколов, да, но этого не хватит. (У меня тут скромная идея - спарсить весь ВКонтакте)
addison-cochran, запастись терпением и аккаунтами?
addison-cochran, нифига себя, та вам жизни не хватит. Также узнал, что ВКонтакте грузит всего 10 постов. - если долистать страницу донизу, то захвачиваются все посты
Сергей Соколов, пока у меня не иссякли силы, я буду пытаться использовать proxy и aiohttp. Теоретически, возможно ли с помощью прокси обойти бан ВКонтакте за очень частое обращение к нему? Какие прокси нужно использовать? Подойдут ли HTTP, HTTPS, SOCKS4, SOCKS5? (Начал группы парсить. В теории за 85 часов данные о всех группах будут у меня. Потом посмотрю, сколько активных групп, сколько нет)
addison-cochran, я как-то собирал все группы ВК, вроде быстрее получилось. Интересовала открытость и число участников.
Сергей Соколов, сейчас во ВКонтакте примерно 191793656 групп. За один (execute) запрос можно получить инфрмацию о 25 * 500 = 12'500 групп. На один запрос тратится 8 - 20 с. Да пусть даже в среднем 13 с. Тогда понадобится 55 часов.
addison-cochran, на 1 запрос не так долго.. Я с VPS запускал, довольно шустро отработало. Делал на PHP, в 3 параллельных потока запрашивал через curl_multi
Сейчас топовая группа только что создана 191798900
Сергей Соколов, вы 3 аккаунта для этого создали?
addison-cochran, нет, все по-белому, от одного аккаунта. Лимит же 3 запроса в секунду. Вот 3 и уходит. Обрабатываются они дольше секунды, поэтому следующую пачку в 3 можно отправлять сразу по завершении.
Сергей Соколов, серьезно? Можно было отправлять 3 запроса в секунду одновременно? Спасибо за информацию. Я продолжу дальше изучать.
Сергей Соколов, Я провел свой анализ и получил почти такую же картину.

Но количество групп c одинаковым числом участников может быть разным.
Пример - у нас есть 5 групп с одинаковым числом участников (40)
у нас есть 3 групп с одинаковым числом участников (60)
у нас есть 6 групп с одинаковым числом участников (80)
у нас есть 5 групп с одинаковым числом участников (100)

Если начертить график, то получится, что на оси y = 5, где ось OY - количество групп, будет две точки - 40 и 100
Поэтому я усреднил значения и получил

Вобщем, тоже самое
addison-cochran, круто, коллега! : )
Что дальше с этими данными делать, вот вопрос.
Сергей Соколов, хочу исследовать зависимость количества постов, комментариев от количества участников.
addison-cochran, имхо только от численности четких закономерностей не выявить..

Answer 1 · 2020-02-08 21:29:07

Антон Шаманов @SilenceOfWinter

та еще зажигалка...

прокси или парсить напрямую страницы

Ответ написан более трёх лет назад

2 комментария

Каким образом можно обойти ограничение по запросам к серверу в секунду?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт