Как мне сделать, чтобы код скачал полную информацию из ссылок?

Question

Ruslan Mordovanech @Hery1

Python

Как мне сделать, чтобы код скачал полную информацию из ссылок?

import asyncio
import uuid
import aiohttp
import async_timeout
import requests

link = 'https://dsa.court.gov.ua/open_data_json.php?json=532'

response = requests.get(link).json()
urls = []
for item in response['Файли']:
    urls.append(list(item.values())[0])

async def get_url(url, session):
  file_name = str(uuid.uuid4())
  async with async_timeout.timeout(120):
    async with session.get(url) as response:
      with open(file_name, 'wb') as fd:
        async for data in response.content.iter_chunked(9000):
          fd.write(data)
          return 'Successfully downloaded ' + file_name

async def main(urls):
  async with aiohttp.ClientSession() as session:
    tasks = [get_url(url, session) for url in urls]
    return await asyncio.gather(*tasks)

urls = urls
loop = asyncio.get_event_loop()
results = loop.run_until_complete(main(urls))
print('\n'.join(results))

Все силки скатываются но не закачивают до конца.
Файлы слегка записаны. Я так понял процесс скачивания обрывается. И почему-то оно не видит его как csv.

Вопрос задан более трёх лет назад
149 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

5 комментариев

Ruslan Mordovanech @Hery1 Автор вопроса

Спасибо. !
Я так понял что urls = urls уже не нужно прописывать .

Написано более трёх лет назад
Влад Григорьев @Vaindante

Ruslan Mordovanech, да это не имеет никакого смысла

Написано более трёх лет назад

Ruslan Mordovanech @Hery1 Автор вопроса

Влад Григорьев,

async def main(urls):
  async with aiohttp.ClientSession() as session:
    tasks = [get_url(url, session) for url in urls]
    return await asyncio.gather(*tasks)

urls = urls
loop = asyncio.get_event_loop()
results = loop.run_until_complete(main(urls))
print('\n'.join(results))


Без этого кода оно не хочет качать но все равно не скачивает все файлы(

Написано более трёх лет назад

Влад Григорьев @Vaindante

Ruslan Mordovanech, логично, я же поправил только одну функцию, не плохо бы подтянуть основы, что бы было понимание как все работает

Написано более трёх лет назад
Ruslan Mordovanech @Hery1 Автор вопроса

Влад Григорьев, Спасибо щас попробую.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ruslan Mordovanech @Hery1 Автор вопроса

import os

urls = open('pages.txt', 'r')
for i, url in enumerate(urls):
    path = '/users/user/Downloads/{}'.format(os.path.basename(url)
    urllib.request.urlretrieve(url, path)

Єтот код может заменить этот

link = 'https://dsa.court.gov.ua/open_data_json.php?json=532'

response = requests.get(link).json()
urls = []
for item in response['Файли']:
    urls.append(list(item.values())[0])

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- вчера
- 173 просмотра
1

ответ
Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 18 окт.
- 175 просмотров
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 128 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 516 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 110 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 531 просмотр
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 143 просмотра
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 124 просмотра
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 555 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Answer 1 · 2021-12-13 15:47:56

async def get_url(url, session):
  file_name = str(uuid.uuid4())
  async with async_timeout.timeout(120):
    async with session.get(url) as response:
      with open(file_name, 'wb') as fd:
        async for data in response.content.iter_chunked(9000):
          fd.write(data)
          return 'Successfully downloaded ' + file_name - вот тут вы выходите из цикла и функции и скачиваете один только блок

Вот так скачали завершили функциию 
                async for data in response.content.iter_chunked(9000):
                    fd.write(data)
                    print(data)
                return 'Successfully downloaded ' + file_name

Answer 2 · 2021-12-13 23:00:48

import requests
from multiprocessing.pool import ThreadPool

link = 'https://dsa.court.gov.ua/open_data_json.php?json=532'

response = requests.get(link).json()
urls = []
for item in response['Файли']:
    urls.append(list(item.values())[0])

def download_url(url):
  print("downloading: ",url)
  file_name_start_pos = url.rfind("/") + 1
  file_name = url[file_name_start_pos:]

  r = requests.get(url, stream=True)
  if r.status_code == requests.codes.ok:
    with open(file_name, 'wb') as f:
      for data in r:
        f.write(data)
  return url

urls =  urls

results = ThreadPool(5).imap_unordered(download_url, urls)
for r in results:
    print(r)

Нашел код качающий одновременно все силки и без перебоев. Нужно протестовать

Как мне сделать, чтобы код скачал полную информацию из ссылок?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт