Как лучше запарсить себе базу данных solutions.fas.gov.ru?

Question

fridary @fridary

Как лучше запарсить себе базу данных solutions.fas.gov.ru?

solutions.fas.gov.ru - это база данных судебных решений ФАС по России
Мне необходимо её всю скачать и выгрузить в ElasticSearch. На данном сайте есть возможность просмотра результатов в JSON и XML.
Как посоветуете лучше это сделать, если здесь документов больше миллиона и при загрузки базы в формате JSON/XML хотя бы 10 документов тратится примерно 3 минуты (почему-то)?

Я думаю написать скрипт на python или php (php лучше знаю) и собственно мой метод на php будем примерно такой:

// скачиваем все документы за 2 апреля (19 штук)
$content = json_decode(file_get_contents("http://solutions.fas.gov.ru/search.json?action=search&doc_date_finish=02.04.2016&doc_date_start=02.04.2016"));
// ..сохраняем..

Вопрос: мой метод эффективен или есть лучше способы решения моей задачи? Может как-нибудь сделать через curl get и будет быстрее парситься? python или php?

Вопрос задан более трёх лет назад
810 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Фронтенд-разработчик

10 месяцев

Далее
Skillbox

JavaScript

3 месяца

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

6 комментариев

fridary @fridary Автор вопроса

Спасибо братан

Написано более трёх лет назад
fridary @fridary Автор вопроса

А не знаешь, можно ли что-то сделать с такой проблемой: если парсить документы через json/xml, то сайт выдает некий один набор параметров (id, content, document_id и тд), но он не выдает параметры, которые указаны в деле на самой страницы документа (например, "Сферы деятельности", "Тип документа").
То есть этих параметров нет в json/xml. Их возможно ли как-нибудь добыть или увы? Спасибо

Написано более трёх лет назад
Roman K @deliro

fridary: Если не даёт и не даёт ссылки - скорее всего только парсить html.

Написано более трёх лет назад
Roman K @deliro

fridary: Парсить HTML BeautifulSoup4

Написано более трёх лет назад
Владимир Проскурин @Vlad_IT Куратор тега JavaScript

>> Парсить HTML BeautifulSoup4
Или lxml+CSSSelect

Написано более трёх лет назад
Roman K @deliro

Vlad_IT: Да, lxml даже лучше, если HTML не битый.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

Простой
Переход по ссылке с параметром на конкретный узел в vis.js?
- 1 подписчик
- 24 нояб.
- 75 просмотров
0

ответов
JavaScript

+1 ещё

Простой
Как сделать сложную виртуализацию?
- 1 подписчик
- 22 нояб.
- 192 просмотра
2

ответа
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 75 просмотров
0

ответов
JavaScript

Простой
В цикле for много кнопок как сделать .addEventListener('click', к каждой кнопке?
- 1 подписчик
- 16 нояб.
- 266 просмотров
3

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 219 просмотров
1

ответ
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 378 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 233 просмотра
4

ответа
JavaScript

+2 ещё

Простой
Как получить события VK.VideoPlayer используя JS?
- 1 подписчик
- 11 нояб.
- 151 просмотр
1

ответ
JavaScript

+1 ещё

Сложный
Почему зависает виджет в OBS?
- 1 подписчик
- 10 нояб.
- 192 просмотра
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 259 просмотров
0

ответов
Показать ещё Загружается…

Fullstack Разработчик (Next.js / JavaScript / TypeScript)

App Company

от 200 000 до 300 000 ₽

React разработчик

ITK academy • Нижний Новгород

от 50 000 до 90 000 ₽

Frontend Developer (React + Node.js)

Alfabet Service

от 1 000 до 2 000 $

Answer 1 · 2016-04-03 16:41:38

eventlet

Вроде такого:

import eventlet
eventlet.monkey_patch()
import requests


urls = ['http://solutions.fas.gov.ru/search.json?action=index&'
        'controller=documents&page=%s' % page for page in range(1, 29044)]

def fetch(url):
    return requests.get(url)
    
pool = eventlet.GreenPool()

for response in pool.imap(fetch, urls):
    # Клади ответ в ES
    print('gotcha')

Либо aiohttp.

Как лучше запарсить себе базу данных solutions.fas.gov.ru?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт