Мне кажется, Вы не разобрались в теме, начните сначала
Я думал, что мой развёрнутый вопрос покажет, что я не надёргал с гугле первых попавшихся ссылок, а достаточно подробно изучил вопрос. В частности, я, как минимум, написал пауков на каждом из приведённых фреймворков, а pyspider вообще использую постоянно. Также, перед тем как написать вопрос, я написал свой мини-фреймворк, в котором надёргал идей из вышеприведённых, то есть их код, структуру и общую архитектуру я более-менее изучил.
Ни одна из этих особенностей не усложняет выбор фреймворка, ибо ни одна из них не охватывается и не должна охватываться его функционалом.
"Раздельный запуск фетчеров и парсеров" - единственное что отсутствует у всех. Остальное присутствует в приведённых фреймворках. Вы уверены, что сами "в теме"?
Если нет - Ваш выбор BeautifulSoup, ибо очень быстрый.
BeautifulSoup, lxml и html5lib используют разные подходы к обработке документов. Делать однозначный выбор лучше-хуже по какому-то одному параметру (скорость, качество парсинга, удобство) неверно.
По моим данным lxml быстрее BS. Вы можете обосновать своё утверждение?
Мой выбор - lxml с обёрткой PyQuery - для большинства людей [которые будут писать пауков] это самый простой и быстрый подход.
lxml поддерживает несколько парсеров, в частности есть lxml.html.soupparser
Спасибо за ответ!
У pyspider своя ниша из которой его выбить тяжело - он великолепно подходит под "одноразовые" задачи - установил, три строки кода, из которых две - селекторы ссылок и через полчаса сайт уже в JSON. Но что-то кастомное лучше не им делать, конечно.
riot26: Всё вам правильно ответили выше.
Если ваши правила формализованы, то переводите их в промежуточный формат для strtotime и дальше в дату, то есть:
Завтра в 13:30 --> +1 day 13:30
В следующий вторник в 4 вечера --> next Thursday 16:00
22 сентября в 11:00 --> 22 September 2016 11:00
Задача для джуонира.
Если же ваши правила не формализованы, то никакая библиотека не поможет )
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.