Реализация xml-парсинга со вставкой в базу данных на Yii 2?

Question

Pavel Khorikov @Horik_off

Developer

Реализация xml-парсинга со вставкой в базу данных на Yii 2?

Существует сложная струкура бд (авторы, статьи, названия статей, имена авторов названия статей, журнал, в котором была опубликована статья, год, номер выпуска и серия журнала).
Все это многотабличная база данных, которую нужно пополнять данными из xml-файла. То есть, по сути, надо распарсить сгенерированный сторонним ресурсом (в моем случае сторонний ресурс - это elibrary.ru) xml-файл с данными и синсертить все в упомянутую выше базу данных на наших серверах. Подскажите, коллеги, знатоки, опытные товарищи, как лучше и грамотнее реализовать данную поделку?

То есть алгоритмически это должно быть что-то вроде следующего. Получить xml-файл (руками передать парсеру - пока только так, из-за отсутсвия какого-нибудь API в E-library) и парсер должн спарсить данные об авторах, статьях и, минуя всякие траблы типа повторений, вставить все в нашу локальную базу данных. Так же стоит упомянуть, что в редакции есть не один журнал и каждый автор со статьями может быть опубликован в любои из них, что накладывает кучу проверок на инсерт во избежание дублей.

Если уж совсем абстрагироваться от деталей, то на выходе должна получиться бд в котрой можно узнать какой автор сколько раз в каких журналах публиковался и какие статьи (название, описание, заголовки, теги, ключевые слова, удк и прочие данные). И все это хотелось бы поднять на Yii2. Буду рад любым адекватным наставлениям, ссылкам и проч проч.

Вопрос задан более трёх лет назад
8448 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Тестировщик на Python

9 месяцев

Далее
Академия Eduson

Python-разработчик

9 месяцев

Далее
Merion Academy

Базы данных с нуля

2 месяца

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

11 комментариев

Viktor Vsk @viktorvsk

Какая разница, какой язык? XML настолько поплуярен, что библиотеки, которые его парсят есть в каждой стандартной библиотеке. И в DOM-парсере не особо важно, на каком он языке, если реализует, как вы сказали XPATH

Написано более трёх лет назад
egorsmkv @egorsmkv

Виктор Выскребенцев: большая разница, ибо PHP не рассчитан на длительное выполнение операций. Вот здесь habrahabr.ru/post/175813 есть простое сравнение по парсингу 1.5 ГБ базы на нескольких языках, поэтому Python может быть не лучшим решением.

Написано более трёх лет назад
Viktor Vsk @viktorvsk

egorsmkv: То есть, пхпшники так и не научились запускать php из консоли и использовать очереди? Прескорбно)
А скорость - это, конечно, очень важно. Но, во-первых, это всего лишь одно из требований, и если оно не указано - в приоритет нужно ставить удобство реализации.
Плюс,в интернете - намного важнее скорость загрузки страницы, а не непосредственно парсинга, потому что задержка сети будет куда значительнее и лучше сконцентрировать усилия на параллелизации.

Да и вообще, если это все нужно, а не сведется, как скорее всего и будет, к какому-нибудь SimpleDOM в 100 строчек.

Написано более трёх лет назад
egorsmkv @egorsmkv

Виктор Выскребенцев: по-моему, каждую задачу нужно решать наиболее подходящим инструментом. Я имею ввиду скорость выполнения программы и не важно - указано в требованиях или нет.

Если вернуться к задаче, то база, скорее всего, со временем будет только расти, поэтому нужно сразу использовать лучшее решение.

Написано более трёх лет назад
Viktor Vsk @viktorvsk

egorsmkv: ну, на часть вопрсоа вы ответили правильно. Но дальше несовсем. Если производительность не главное - то правильный интсрумент выбирается по остальным параметрам.

А сделать сразу "лучше" не получится никак и никогда.

Кстати, скорость парсинга != скорость выполнения программы != производительность. Для начала, хотя бы потому, что, как я сказал, задержка сети - куда значительнее

Написано более трёх лет назад
egorsmkv @egorsmkv

Виктор Выскребенцев: я не понимаю о какой задержке сети вы говорите, автор вопроса написал, что xml-файл предоставляется сайтом elibrary.ru и дальше нужно его как-то обрабатывать.

Полагаю, я ошибся, когда написал "скорость выполнения программы", потому, что сайт написанный на С будет работать быстрее, чем на PHP, поэтому правильным будет использовать наиболее подходящий инструмент для решения задачи.

Я имел под "лучше" наиболее эффективный инструмент.

Написано более трёх лет назад
Viktor Vsk @viktorvsk

Получить xml-файл (руками передать парсеру - пока толькто так из-за отсутсвия какого-нибудь API в E-library)

Очень скоро она появится, эта задержка.

Насчет Си не понял, вы предлагаете на Си сайты писать?

Ну, и в тегах у автора указан php

Написано более трёх лет назад
egorsmkv @egorsmkv

Виктор Выскребенцев: программа (сайт) на Си будет работать быстрее, чем реализация на PHP, но это неправильно со стороны выбора инструмента (длительность разработки), ибо его область применения точно не в написании сайтов.

Автор вопроса написал "распарсить сгенерированный сторонним ресурсом". Объясните, что вы имеете в виду, под "задержкой"?

Написано более трёх лет назад
Viktor Vsk @viktorvsk

egorsmkv: Да, согласен, немного не в ту сторону подумал - если файл XML будет один, то, конечно, не важно. Если же будут парситься, например, все страницы всех книг всех авторов - тут уже скорость разбора будет не так важна.

Ну, и опять же, исходя из целесообразности инструмента, куда правильнее то, что знаешь (php автор, видимо, знает, раз в теги хотя бы поставил его. И прашивает про Yii). Тем более, в такой простой вещи. как парсинг простой XML.

Написано более трёх лет назад
egorsmkv @egorsmkv

Виктор Выскребенцев: парсинг xml пусть и является простым делом, но, если посмотреть на его содержание, которое описал автор, то становится ясно, что чем больше файл, тем больше оперативной памяти программа будет использовать. Исходя из этого PHP может оказаться не лучшим решением.

P.S. программист не должен ограничиваться одним языком для решения поставленных задач.

Написано более трёх лет назад
Viktor Vsk @viktorvsk

egorsmkv: не должен. но KISS в данном случае говорит использовать PHP.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

+1 ещё

Простой
Как правильно реализовать структуру таблиц продукт и цены продуктов?
- 1 подписчик
- 20 нояб.
- 173 просмотра
2

ответа
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 148 просмотров
1

ответ
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 209 просмотров
1

ответ
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 602 просмотра
1

ответ
Yii

Простой
Вопрос по Yii2 и сверхмощному(?!) виджету GridView::widget?
- 1 подписчик
- 06 окт.
- 130 просмотров
1

ответ
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 333 просмотра
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 127 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как исправить ошибку «No connection could be made because the target machine actively refused it»?
- 2 подписчика
- 02 сент.
- 343 просмотра
1

ответ
MySQL

Простой
Почему у некоторых таблиц Update_time равен null?
- 1 подписчик
- 20 авг.
- 127 просмотров
2

ответа
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- 1 подписчик
- 16 авг.
- 176 просмотров
2

ответа
Показать ещё Загружается…

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Сетевой инженер, OpenWrt, Linux

Ростовский завод электроники • Санкт-Петербург

от 20 000 до 60 000 ₽

Answer 1 · 2015-02-07 13:48:03

Загружаете хмл, как обычный файл на сервер, получаете его содержание, берете нужные данные из хмл с помощью SimpleXML, расталкиваете их куда хотите по какой хотите логике.

Answer 2 · 2015-02-07 06:00:55

Для парсинга не тот язык выбрали, смотрите в сторону Python'a. Чтобы получать из неё данные используйте XPath-запросы.

Реализация xml-парсинга со вставкой в базу данных на Yii 2?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт