Scrapy. Как оптимизировать код?

Question

gadzhi15 @gadzhi15

Scrapy. Как оптимизировать код?

Парсю страницу с помощью Scrapyhttps://www.reformagkh.ru/myhouse/profile/view/7913930/

Написал такой код:

def parse_item(self, response):

        hxs = HtmlXPathSelector(response)
        l = ReformaLoader(ReformaItem(), hxs)
        l.add_xpath('house', '/html/body/div[1]/div[2]/h1/span[2]/span[1]/text()')
        l.add_xpath('organization', '/html/body/div[1]/div[2]/section/div[1]/table[1]/tbody/tr/td[2]/a/text()')
        l.add_xpath('year',
                    '/html/body/div[1]/div[2]/div[7]/div/div/div[1]/div/div/table/tbody/tr[4]/td[2]/span/text()')
         return l.load_item()

Потом дотукал что данные представлены в виде таблицы, и можно не писать полный XPATh путь, а просто циклом for проходить по таблицы и извлекать нужные поля

titles = hxs.xpath("//table[@class='orders overhaul-services-table']//tr")
        for titles in titles:

            l.add_xpath(????)

Но никак не пойму как обращаться в самом цикле к элементам таблицы, которые нужно извлечь. Или я избрал не тот путь решения задачи? Подскажите куда копать?

P.S. Во вкладке лифты, таблица с данным бывает разной, в зависимости от дома. Поэтому и первое мое решение не есть хорошее

Вопрос задан более трёх лет назад
581 просмотр

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 105 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 175 просмотров
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 380 просмотров
2

ответа
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 219 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 146 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 147 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 264 просмотра
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 107 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 542 просмотра
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 253 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Answer 1 · 2016-08-08 23:31:24

Я со Scrapy ни разу не работал, но думается мне вам надо смотреть в сторону относительных xpath-запросов в стиле:

titles = hxs.xpath("//table[@class='orders overhaul-services-table']//tr")
        for title in titles:
                item['year'] = title.xpath('./td[2]/span/text()').extract()
                item['organization'] = title.xpath('./td[2]/a/text()').extract()

где item - массив с вашими данными.
Относительные пути должны начинаться с точки.

Scrapy. Как оптимизировать код?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт