Ответы пользователя sim3x по тегу «Парсинг»

Ответы пользователя по тегу Парсинг

Хорошо ли подходит NodeJS для парсинга сайтов?

sim3x @sim3x

Когда у тебя в руках лом - все кажется сайтом

Стоит посмотреть на golang

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Как запустить python html парсер в несколько потоков?

sim3x @sim3x

cat list | parallel -j 30 ./script.py {}

Ответ написан более трёх лет назад

Комментировать

Комментировать
Кто сможет раскритиковать/улучшить алгоритм распознавания прайс-листа?

sim3x @sim3x

Слишком много сайд еффектов придется обработать
Те слишком дорогая получится автоматизация
Если у тебя сервис по парсингу прайс-листов, то оно того стоит

Тебе же проще ввести понятие пресета, те привязки номера колонки к типу данных.

Показываешь пользователю 20 рандомных строк из файла
Он выбирает пресет
Дальше ты процессиш

Если поместить все в транзакцию БД с роллбеком, то даже данные не попортишь

Если обьем такой работы буде увеличиваться, то ты можешь начать собирать статистику
прайс - данные - куда попала строка из прайса в бд
И вот тут уже можно будет подумать про модные технологии

Ответ написан более трёх лет назад

Комментировать

Комментировать
Насколько мощный нужен VPS для парсинга?

sim3x @sim3x

при корректной настройке 256М памяти на все хозяйство вместе с сайтом хватит за глаза

Только используй BS c lxml

Ответ написан более трёх лет назад

Комментировать

Комментировать
Хорошо ли использовать id объекта стороннего сервиса как primary key в своей базе данных?

sim3x @sim3x

плохо

Ответ написан более трёх лет назад

2 комментария

2 комментария
Как получать данные яндекса о зараженных сайтах?

sim3x @sim3x

никак

Ответ написан более трёх лет назад

Комментировать

Комментировать
Многопоточная обработка страниц используя Python3+Grab. Как?
sim3x @sim3x
Забудь про граб

Или используй питон2 и scrapy, или используй питон3 с его плюшками, или просто запускай параллельно синхронные скрипты с помощью parallel

cat file_with_links.txt | \ parallel -j количество_потоков myscript.py --param1={}

Ответ написан более трёх лет назад

Комментировать
Комментировать
Как правильно парсить google docs?

sim3x @sim3x

https://developers.google.com/google-apps/spreadsh...

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как распарсить данные по ячейкам таблицы?

sim3x @sim3x

Они и так в юникоде в ascii-safe
Формат похож на json

Хватит для решения?

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как спарсить ссылки из плей листа в youtube?

sim3x @sim3x

https://github.com/rg3/youtube-dl/blob/master/READ...

Ответ написан более трёх лет назад

1 комментарий

1 комментарий
Существует ли замена регулярным выражениям для парсинга сложных данных?

sim3x @sim3x

https://tech.yandex.ru/tomita/

Ответ написан более трёх лет назад

Комментировать

Комментировать
Как наименьшей "кровью" парсить каждый час статус 10000 товаров?

sim3x @sim3x

0.
с наименьшей "кровью"
попросить сделать апи

1. Запрашивать HEAD и проверять изменилась ли страница

Исходя из всего, стоит сделать очередь и размазать запросы максимально равномерно по времени.
Твой сервер мало пострадает от нагрузки, тк ему нужно будет только принимать трафик и парсить

Ну и прикрой проксями свой ип

Ответ написан более трёх лет назад

2 комментария

2 комментария

Как в XPATH получить содержимое тега вместе с внутренними тегами?

sim3x @sim3x

from lxml import etree

tree = etree.fromstring('<html><head><title>foo</title></head><body><div class="name"><p>foo</p></div><div class="name"><ul><li>bar</li></ul></div></body></html>')
for elem in tree.xpath("//div[@class='name']"):
     # pretty_print ensures that it is nicely formatted.
     print etree.tostring(elem, pretty_print=True)

from lxml import etree, html

tree = html.parse('http://rutracker.org/forum/index.php')
for elem in tree.xpath("//div[@class='category']"):
     print html.tostring(elem, pretty_print=True)

"Ваша Галя балувана"(с)

from StringIO import StringIO
from lxml import etree, html
import requests

c = requests.get('http://rutracker.org/forum/index.php').content

tree = html.parse(StringIO(s))

for elem in tree.xpath("//div[@class='category']"):
     print html.tostring(elem, pretty_print=True)

Ответ написан более трёх лет назад

3 комментария

Есть ли такой парсер сайтов?

sim3x @sim3x

Сильно зависит от того, что за страници нужни

АПИ яндекс
api.yandex.ru/rca

Ответ написан более трёх лет назад

2 комментария

2 комментария

Самые активные сегодня

rPman
- 7 ответов
- 0 вопросов
Михаил Р.
- 4 ответа
- 0 вопросов
diller
- 4 ответа
- 0 вопросов
Shaman_RSHU
- 4 ответа
- 0 вопросов
Василий Банников
- 3 ответа
- 0 вопросов
Alex G.
- 3 ответа
- 0 вопросов

Войдите на сайт