разбираюсь с парсингом, вроде с beautiful Soup разобралась, но теперь встал вопрос про xpath.
Посоветуйте туториалы, лит-ру, а то найти не могу, везде практика, а нужна больше теория.
буду благодарна
AlexBoss, при работе с большим количеством данных (объектов), приводит к утечки памяти, так-как питоновский сборщик мусора не умеет его убивать. Я писал большой проект по анализу гугл таблиц, нужно было реализовать проверку ссылок из таблицы. Несколько дней не мог понять почему оперативная память начинает таять на глазах. В итоге пришлось переписывать реализацию на lxml. Мало того что потребление памяти снизилось и остановилось, так ещё и скорость работы возросла. Пользоваться им конечно не привычно по началу, но достаточно посмотреть пару хороших примеров кода, и всё становиться понятно.
Михаил, большое спасибо за детальный ответ. Можешь кинуть пару достойных и понятных примеров использования? Доку в любом случае изучу, но хотелось бы посмотреть что-то.
AlexBoss, по поводу lxml вот тут и тут довольно подробно описан геморой с ветками (т.е концепция поиска данных в lmlx подразумевает что ты будешь указывать вложенность искомого объекта), сейчас посмотрел свою реализации и в итоге я ушел от lxml в сторону html5lib. Он в целом работает похожим образом как суп, но лишен недостатков lxml (таких как кодировка, поиск элемента и.т.д).
В своё время я убил целый день что бы понять как же работает lxml с этим драными ветками (etree), и данная библиотека как ты наверное понял из названия, лучше всего подходит для работы именно с xml данными, т.е ей нужно будет объяснить что ты работаешь с html, его там нужно было ещё как-то преобразовать, в общем на любителя. Я так и не решился усложнять свой код этими конструкциями, тогда как на html5lib, разберешься максимум за час. Она умеет и читать и парсить, и ей достаточно указать на объект что бы его найти, ну или на группу объектов. Сам код я обычно получаю с помощью реквеста обычного
Не совсем может по Вашему вопрсоу.
У Котерова и Костерова в книге по PHP 5.3 есть описание Xpatch. Книга разумеется по PHP а не PYTHON, но если Вам просто нужно описание самого XPatch то вполне нормально подойдёт, только фуккции питоновские найдёте.
Сам Xpath не такая обширная тема. Если и есть книга только по нему, то она не более 50 страниц. Там под пол сотни функций и с десяток осей.
Если быстро разобраться, то mdn наше всё.
Если просто почитать, то любая книга зарубежного издательства в названии или описании которой будет XML. Там обязательно будет глава про Xpath.