Задать вопрос

Headballz @Headballz

python

Как указать файл для scrapy spider, если он лежит в той же папке?

Я выгружаю с помощью selenium в html нужную мне страницу.
Она попадает в папку где лежит проект Scrapy.
Сейчас мне нужно указывать полный путь к файлу для парсинга.
Можно ли настроить scrapy парсить html файлы, лежащие в той же директории?

Примерный код:

import scrapy
from urllib.parse import urljoin

class Htmlparse(scrapy.Spider):
    name = "htmlparse"
    start_urls = [
        'file:///C:/scrapyproject/alpabetsch23-43_28-09-2019.html',
    ]
    def parse(self, response):
        for post_link in response.xpath('//td').extract():
            url = urljoin(response.url, post_link)
            print(url)

Вопрос задан более трёх лет назад
105 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Александр @sanya84

start_urls = [
'alpabetsch23-43_28-09-2019.html',
]

Написано более трёх лет назад

Headballz @Headballz Автор вопроса

Так не работает:

File "c:\users\aa\appdata\local\programs\python\python36-32\lib\site-packages\
scrapy\http\request\__init__.py", line 69, in _set_url
    raise ValueError('Missing scheme in request url: %s' % self._url)
ValueError: Missing scheme in request url: Kandidate01-20_29-09-2019.html

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 202 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 526 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 487 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 279 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 501 просмотр
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 212 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 660 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…