Комментарии пользователя Bjornie — Хабр Q&A

Задать вопрос

Комментарии

Как обработать AttributeError: 'NoneType' object has no attribute 'text'?

Bjornie @Bjornie Автор вопроса

Pavel Denisov: так и сделал.

def checkResultsLength(soup):
results_table_length = soup.find(id='body')
y = getattr(results_table_length, 'find_all', None)
if y is not None:
tr = results_table_length.find_all('tr')
return len(tr)
else:
return 0

Написано более трёх лет назад
Как разобрать такую строку? Регулярные выражения?

Bjornie @Bjornie Автор вопроса

abcd0x00 супер, спасибо!

Написано более трёх лет назад
Как разобрать такую строку? Регулярные выражения?

Bjornie @Bjornie Автор вопроса

На самом деле я сделал примерно также в конечном итоге. Однако в качестве разбираемой строки добавились html-теги с обеих сторон, которые стали удобными точками опорами. Попахивает, как вы написали, но работает. а это главное! :D

Написано более трёх лет назад
Как разобрать такую строку? Регулярные выражения?

Bjornie @Bjornie Автор вопроса

Дмитрий Энтелис мощно, спасибо!

Написано более трёх лет назад
Как ускорить парсинг данных с Python/Selenium?

Bjornie @Bjornie Автор вопроса

"Требовалось что-то около десяти инстансов PhantomJS"
Можете показать кусок кода (или направить на реализацию подобного решения), о котором вы говорите? Если я запускаю "тупо" 2 одинаковых скрипта (естественно на разный список ссылок), то я вижу, что первый работает нормально, а второй "плетется", иногда подтормаживая, или вообще останавливаясь. Не знаю точно в чем проблема: соединение, настройки удаленного сервера, или какие-то другие факторы.

"Нужно использовать wait()."
Расставил везде где нужно по time.sleep(1) или wait.until. Запинаний не было.

"Наличие/отсутствие попапов не играет роли. Все, что появляется в DOM, все можно отработать.". Это понятно, что все появляется в DOM. Сейчас в моем примере сервер отдает целый шаблон с html-тегами (а не просто массив данных), который при открытии появляется или наоборот удаляется. Все это ведь надо прокликать, так или иначе. Иначе как дать появится данным в дереве?

"Возможно. Но так ли это в вашем контексте ни кто кроме эксперимента не скажет."
В общем я сделал прокликивание ссылок через селениум, а парсинг данных через bs4. Работает, как и обещали - быстрее. В 2 с небольшим раза (т.е. не 5 часов, а 2.7 где-то). Это уже хорошо.

В общем, думаю, что ничего волшебного не бывает, т.к. все зависит от независящих от меня факторов: как быстро сервер отдает информацию, скорость канала и т.д. Единственное решение: максимально быстроработающий код и многопоточность. Насколько я понял. С первым я более-менее разобрался, а вот как увеличить ресурсы - пока нет. Парсинг происходит уже 2-й день.

Написано более трёх лет назад
Как ускорить парсинг данных с Python/Selenium?

Bjornie @Bjornie Автор вопроса

Алексей Сундуков: спасибо за подробное пояснение (здесь и в ответе ниже). "реверс инжениринг по трудозатратам получается сильно дороже" мне пока вообще не понятно как это сделать в моем случае. Думаю вы правы.

"использование вместо headless браузера обычного SpiderMonkey (или V8)"
не понял, я должен использовать Mozilla, вместо Chrome в качестве драйвера?

Написано более трёх лет назад
Как разобрать такую строку? Регулярные выражения?

Bjornie @Bjornie Автор вопроса

tema_sun Нет, вариант со скобками я выделил специально, чтобы показать КАК я хочу разбить чистую строку (всмысле ту, что без скобок).

Строки могут быть разными по длине, но шаблон остается одинаковым.

Написано более трёх лет назад
Как разобрать такую строку? Регулярные выражения?

Bjornie @Bjornie Автор вопроса

Some short random string , Round CA 1 day - Trip

Some very long random string , Round B 13 day - Back

Some superlong random string , Round A 1 day - Trip

Some tiny random string , RoundTrip A 30 day - Round

Написано более трёх лет назад
Как ускорить парсинг данных с Python/Selenium?

Bjornie @Bjornie Автор вопроса

Артем Кисленко
Данных нет в HTML, запросы 100% AJAX.
Попробовал PhantomJS - работает еще медленнее, чем Chrome.
Имитировать запросы нет возможности, я уже об этом писал.

Написано более трёх лет назад
Как пройтись по субдиректориям и в каждой создать нужный файл?

Bjornie @Bjornie Автор вопроса

Алексей Черемисин: то что надо. еще раз спасибо!

Написано более трёх лет назад
Как пройтись по субдиректориям и в каждой создать нужный файл?

Bjornie @Bjornie Автор вопроса

Алексей Черемисин подскажите, как сделать на этапе создания файла with open(os.path.join(path, "output.cvs") название файла в виде foldername_output.csv?

Написано более трёх лет назад
Как пройтись по субдиректориям и в каждой создать нужный файл?

Bjornie @Bjornie Автор вопроса

Замечательно, благодарю.

Написано более трёх лет назад
Как узнать номер строки при чтении файла?

Bjornie @Bjornie Автор вопроса

То что нужно. Спасибо

Написано более трёх лет назад
Актуален ли сейчас Mac mini 2012?

Bjornie @Bjornie

Denis Fedorets какой у вас процессор? 1.6?

Написано более трёх лет назад
Как ловить ошибку сервера при парсинге?

Bjornie @Bjornie Автор вопроса

интересное предложение со вторым окном, надо попробовать

Написано более трёх лет назад
Аналоги selenium для python?

Bjornie @Bjornie

"Так, вот, если задача поднять именно п. 2, то делать это можно и на selenium, просто придется запустить целый кластер из нод. " если запускать с десктопа, то какие ресурсы потребуются? И как лучше запустить в несколько потоков один скрипт?

Написано более трёх лет назад
Можно ли использовать Selenium + python без браузера?

Bjornie @Bjornie

Илья Кметь нашли способ? разобрались?

Написано более трёх лет назад
Как парсить многоуровневые формы?

Bjornie @Bjornie Автор вопроса

Так уже и сделал, но спасибо за ответ, подтвердил что я сделал все правильно. Разве что принты у меня работают внутри цикла, чтобы записывать строку сразу при прохождении итерации.

Написано более трёх лет назад
Как парсить многоуровневые формы?

Bjornie @Bjornie Автор вопроса

я не могу подобрать результаты подстановкой параметров в запрос.

Написано более трёх лет назад
Как парсить динамический контент, где разные данные запроса (AJAX POST)?

Bjornie @Bjornie Автор вопроса

Андрей: по авторизации парсинг, не могу сюда кинуть эти данные. (могу написать в скайп)

Написано более трёх лет назад

Самые активные сегодня

Мизам
- 1 ответ
- 1 вопрос
Алексей Уколов
- 2 ответа
- 0 вопросов
DjinnId
- 0 ответов
- 1 вопрос
Денис Давыденко
- 0 ответов
- 1 вопрос
7R1X
- 0 ответов
- 1 вопрос
Daemon23RUS
- 1 ответ
- 0 вопросов