Какие ошибки в парсере?

Question

hardwellZero @hardwellZero

Какие ошибки в парсере?

Добрый вечер.
Начал изучать Python. Решил немного попрактиковаться и написать простенький парсер, а по-скольку я люблю смотреть сериалы от Лостфильма, то выбор пал именно на их сайт.
Вообщем скрипт работает, но отправляет сообщение каждый раз как проходит проверку. Какую нужно сделать проверку в стиле:
Если уже отправлял - не отправлять
Прошу простить меня за столь "быдловый" код. Я только начинаю ;)

# -*- coding: utf-8 -*-
from grab import Grab
import time
import smtplib
import email.utils
from email.mime.text import MIMEText

from_addr = 'имяотправителя@gmail.com'
to_addrs  = 'имяполучателя@yandex.ru'

text = 'Вышла новая серия! Чекай!'

msg = MIMEText(text, "", "utf-8")

msg['To'] = email.utils.formataddr(('Эй ты', to_addrs))
msg['From'] = email.utils.formataddr(('Свежие сериалы', from_addr))
msg['Subject'] = 'Свежак'

username = 'логин'
pwd = 'пароль'

server = smtplib.SMTP('smtp.gmail.com:587')
server.starttls()
server.login(username, pwd)

url = Grab()
url.go('http://www.lostfilm.tv/browse.php')

old_list_serials = [u'\u0412\u043e\u043d\u043d\u0430\u044f \u043b\u043e\u0449\u0438\u043d\u0430', u'\u041f\u0435\u0440\u0432\u043e\u0440\u043e\u0434\u043d\u044b\u0435', u'\u041a\u043e\u0432\u0430\u0440\u043d\u044b\u0435 \u0433\u043e\u0440\u043d\u0438\u0447\u043d\u044b\u0435', u'\u0427\u0435\u0440\u043d\u044b\u0435 \u043f\u0430\u0440\u0443\u0441\u0430', u'\u0411\u0438\u0431\u043b\u0438\u043e\u0442\u0435\u043a\u0430\u0440\u0438']
new_list_serials = []

url_select = url.doc.select('//span[@style="font-family:arial;font-size:14px;color:#000000"]')[:5]
check = 0
while check == 0:
    for serials in url_select:
        new_list_serials.append(serials.text())

    if new_list_serials == old_list_serials:
        print "EQUAL"
    elif new_list_serials != old_list_serials:
        server.sendmail(from_addr, to_addrs, msg.as_string())
        print "NOT EQUAL"
        del old_list_serials[:]
        for serials in url_select:
            old_list_serials.append(serials.text())
        print old_list_serials
    time.sleep(10)
    check = 0

Вопрос задан более трёх лет назад
2593 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

3 комментария

hardwellZero @hardwellZero Автор вопроса

Не думал что его еще нужно переобъявлять каждый раз, спасибо.
А по поводу
old_list_serials = new_list_serials
Так я не заметил такого решения)

Написано более трёх лет назад
hardwellZero @hardwellZero Автор вопроса

Не подскажите еще алгоритм для проверки только на нужные сериалы.
Перебирать список на наличие определенных значений? Или можно как-то проще?

Написано более трёх лет назад
Виталий Беликов @Brick85

Ну без проверки списка не обойтись, можно что-то вроде:
for serials in url_select:
if serials.text() in favorite_serials:
new_list_serials.append(serials.text())

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 22 июл.
- 167 просмотров
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 107 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 114 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 397 просмотров
0

ответов
Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 1126 просмотров
2

ответа
Программирование

+2 ещё

Средний
Поможете собрать компьютер для запуска виртуальных машин и коддинга?
- 1 подписчик
- 02 июл.
- 661 просмотр
5

ответов
Программирование

+4 ещё

Сложный
Что делать, на QEMU всё летает, а реальный Celeron D умирает?
- 2 подписчика
- 01 июл.
- 764 просмотра
1

ответ
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 246 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 699 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 566 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2015-01-29 00:06:53

new_list_serials не сбрасывается, а при каждой итерации становится всё больше.
сразу после
while check == 0:
добавить
new_list_serials = []

И ещё:

del old_list_serials[:]
for serials in url_select:
    old_list_serials.append(serials.text())

можно заменить на
old_list_serials = new_list_serials

Answer 2 · 2015-01-29 00:06:55

У вас всегда new_list_serials != old_list_serials. Потому что в нью листе у вас берутся ссылки со страницы, а в олд листе просто добавляются.
Сделайте лучше запись в файл, и потом для каждого элемента проверять, есть ли он в файле, если нету, то добавлять в файл. В конце всех проверок, можно пускать письмо.
И лучше запускать в кронтабе каком-нибудь.
upd:
Смотрю в книгу вижу фигу... Прошу простить, вообще не то видел в коду.

Какие ошибки в парсере?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт