Обработка ошибок в парсере на python. Что не так?

Question

Ivan2121 @Ivan2121

Python

Обработка ошибок в парсере на python. Что не так?

Написал парсер на питоне. Копирует контент с чужого форума на мой форум, однако, то ли из-за таймаута на том или на моем форуме, то ли из-за проблем в соединении, парсер периодически вырубается из-за ошибок. Сейчас сделал так, чтобы парсер не вырубался, а вместо этого выводился текст в консоли и шел повтор запроса. Но это не решает проблему - эти повторы могут идти до бесконечности - а стоит закрыть и заново запустить скрипт - то все работает. Ниже прилагаю куски кода, где стоят try except. Может что-то не так сделал? Можно ли это на что-то заменить, чтобы при ошибке, происходил пропуск и дальнейшая работа скрипта? Скрипт копирует контент с нескольких форумов, поэтому важно чтобы при ошибке в соединении с одним форумом - шла работа дальше, со вторым и третьим форумом и т.д. Спасибо.

def in_go(self):#Вход на целевой форум/сайт
        
        global pars
        pars=Grab(log_file=self.name_log)
        pars.setup(connect_timeout=30, timeout=30)
        while self.err!="1":
            try:
                pars.go(self.url_login)
                pars.doc.set_input(self.user, self.login)#Вводим имя пользователя
                pars.doc.set_input(self.passwrd, self.password)#Вводим пароль
                if self.cookie_length==True:
                    pars.doc.set_input('cookielength', self.cook_length)#Выставляем время сессии
                pars.doc.submit()#Нажатие кнопки "Регистрация"
                #pars.go(self.url_profile_pars)#Дополнительная проверка входа на целевой форум
            except:
                print "НЕУДАЧНЫЙ ВХОД. ПОВТОР ЧЕРЕЗ 5 СЕК..."
                time.sleep(self.timeout)
            else:
                break
        print pars.doc.select('//title').text(), "\nУСПЕШНЫЙ ВХОД\n\n"#Выводим название сайта

def copy_info(self):
        while self.err!="1":
            try:
                pars.go(self.url_recent)#Переход к последним сообщениям
                self.board=(pars.doc.select(self.xpath_board)).text()#копируем имя раздела
                Title=(pars.doc.select(self.xpath_title)).text()#Копируем имя темы
                Title=Title.replace('Re: ','')#Удаляем в начале названия темы Re:
                Title=Title.replace(u'Ответ: ', '')#Удаляем в начале названия темы Отвте:
                self.title=Title.replace('"','')#Удаляем кавычки необходимо для корректных запросов
                self.nik=(pars.doc.select(self.xpath_nik)).text()#Копируем ник пользователя
                Post=(pars.doc.select(self.xpath_post)).html()#Копируем HTML код сообщения
            except:
                print "ОШИБКА ЧТЕНИЯ ДАННЫХ. ПОВТОР ЗАПРОСА, ЧЕРЕЗ 5 СЕК..."
                time.sleep(self.timeout)
            else:
                break

while self.err!="1":
            try:
                pars.go((pars.doc.select(self.xpath_recent)).attr('href'))#Переход на страницу в тему с последним сообщением
            except:
                print "ОШИБКА ПЕРЕХОДА НА СТРАНИЦУ С ПОСЛЕДНИМИ СООБЩЕНИЯМИ. ПОВТОР ЧЕРЕЗ 5 СЕК..."
                time.sleep(self.timeout)
            else:
                break

Вопрос задан более трёх лет назад
1921 просмотр

Комментировать

Подписаться 4 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

3 комментария

Ivan2121 @Ivan2121 Автор вопроса

Roman, у меня ошибка возникает именно в этих кусках кода, которые я скинул. То есть, он делает запрос, например на переход к последним сообщениям (2-ой кусок кода) и такую ошибку выдает:
File "D:\Python\lib\site-packages\grab\base.py", line 368, in go
return self.request(url=url, **kwargs)
File "D:\Python\lib\site-packages\grab\base.py", line 437, in request
self.transport.request()
File "D:\Python\lib\site-packages\grab\transport\curl.py", line 447, in request
raise error.GrabTimeoutError(ex.args[0], ex.args[1])
GrabTimeoutError: [Errno 28] Operation timed out after 15000 milliseconds with 0 bytes received

Или такую DataNotFound: Could not get first item for .//*[@name="message"] query of class XpathSelector

Или вот такую DataNotFound: Could not get first item for .//*[@name="signature"] query of class XpathSelector

Но суть в чем - скрипт работает несколько циклов без ошибок, а потом случайно появляется какая-нибудь из ошибок. То есть проблема не в скрипте, а в сетевом соединении, когда пакеты не доходят, или нет доступа к форуму, то весь скрипт падает.

Написано более трёх лет назад
Ivan2121 @Ivan2121 Автор вопроса

А как избавится от global переменных? Если убираю global pars, ругается на строки с pars. в начале. Убираю pars у них, ругается уже на doc. убираю его - ругается уже на select. А если и его убрать то строки станут не рабочими...

Написано более трёх лет назад
Roman K @deliro

Ivan2121: попробуйте переписать на requests и BeautifulSoup. Потребность в globals возникает обычно от неправильного проектирования класса.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Существуют ли сервисы: онлайн python editor для совместного использования?
- 1 подписчик
- час назад
- 19 просмотров
0

ответов
Python

Простой
На каком языке пишут описание функций в Python?
- 1 подписчик
- вчера
- 235 просмотров
3

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 228 просмотров
1

ответ
Python

Простой
Как парсить pdf-ки с вк с помощью Python?
- 1 подписчик
- 16 сент.
- 320 просмотров
1

ответ
Python

+1 ещё

Простой
Почему возникает синтаксическая ошибка: invalid decimal literal?
- 1 подписчик
- 15 сент.
- 168 просмотров
2

ответа
Python

+1 ещё

Простой
Почему модель обнаружения объектов YOLO работает медленно?
- 1 подписчик
- 14 сент.
- 188 просмотров
1

ответ
Python

Простой
Что можно улучшить или оптимизировать в коде, чтобы он не был таким длинным?
- 2 подписчика
- 10 сент.
- 436 просмотров
4

ответа
Python

+3 ещё

Простой
Есть решение сборки Python в Exe с библиотекой Opencv?
- 1 подписчик
- 09 сент.
- 168 просмотров
0

ответов
Python

Простой
Как получить из URL имя страницы?
- 1 подписчик
- 08 сент.
- 198 просмотров
2

ответа
Python

+1 ещё

Простой
Почему у Python проблемы с форматированием?
- 1 подписчик
- 08 сент.
- 228 просмотров
1

ответ
Показать ещё Загружается…

Python developer

Digital Clouds

от 160 000 ₽

Python разработчик

Selecty

от 280 000 до 380 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2015-05-04 11:56:39

Andrew Nodermann @Lucian

https://t.me/MakeFreelance

Привет, почему вы используете while, а не механизм работы с tasks? В каком месте вываливается с ошибкой?

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2015-05-04 09:47:58

0) Старайся не использовать костыль global
1) Не пользовался Grab'ом, но по виду, requests сессии использовать проще в связке с BeautifulSoup.
2) Отлавливать except:ом не нужно. Так ты пропускаешь вообще все ошибки. Даже синтаксические.
3) Используй потоки. Не так давно переписал свою библиотеку для работы со Steam API и увеличил скорость загрузки через потоки 500 матчей с 20 минут до 40 секунд (конечно, зависит от скорости соединения, но всё же).
4) Или syncio. habrahabr.ru/company/wargaming/blog/256425

А по факту: сложно понять, где ошибка без полного кода и трейсбэка.

Обработка ошибок в парсере на python. Что не так?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт