Olek1, ну есть платные сервисы, которые это сделают за вас (топвизор например). Есть ли такая возможность в webmaster console я не уверен. На одной из предыдущих работ мы проверяли именно вводя полный URL в поиск и там было до миллиона URL. Была система с кучей прокси и отправкой капчи в антигейт...
Я вам не конечное решение привёл, а ориентир как нужно делать.
`root.attrib` - тут аттрибуты
Текст элемента можно достать через `element.text`. Почитайте доки по ссылке.
@portfelio не, ну круто тогда. Было бы интересно почитать парочку блогопостов о вашем опыте. У меня наоборот на Erlang небольшой веб-сервис был написан, из за чего фреймворки не смотрел даже, делал на Cowboy + erlydtl и искал библиотеки.
А вы сами на Erlang под веб пробовали писать? Я вот пробовал. В итоге решил оставить Erlang для демонов (тут ему равных нет) а для веба обойтись Python (Django, Flask). Основная проблема - на Erlang веб почти никто не делает и из за этого мало библиотек (валидация форм, ORM, gettext вон пришлось самому писать github.com/seriyps/gettexter и патчи в Erlydtl засылать чтоб в шаблонах трансляция работала нормально).
@uvelichitel эрланг со сборщиком мусора, но в Эрланге у каждого зеленого процесса свой независимый сборщик. Так что проблемы stop-the-world на практике не наблюдается. Можно ли допилить сборщик в Go до полного отсутствия stop-the-world Дмитрию, конечно, виднее. Но явно это будет на порядки сложнее из за того, что данные могут быть расшарены между несколькими горутинами.
Т.е. весь ваш документ это один единственный тег <cufontext>Text</cufontext? Есть какой-то родительский тег или типа того? Полный пример документа можно? Ну и из какого языка программирования делаете запросы тоже желательно сообщите - может xpath особо и не нужен.
ну и можно proxy URL более хитрый делать: <source>proxy = urllib2.ProxyHandler({'http': 'http://proxy-user:proxy-password@127.0.0.1:8080'})</source> на случай если proxy с авторизацией и/или на каком-то специфическом порту
Если это ко мне вопрос, то нет. Простым rm -r. Что-то около 2млн файлов в иерархических директориях (точных цифр сейчас уже не вспомню).
В любом случае, SQLite файл удаляется / бэкапится моментально по сравнению с rm -r.
Скажем так, Erlang отлично подходит когда нужно сложную схему работы наворачивать (прокси/куки/рефереры, частые обращения к БД в процессе работы, регулировка скорости на лету, прокси-чекер, мониторинг, веб-интерфейс для управления процессом) и всё это в кучу потоков (у меня 500-800 потоков примерно). Если парсеры попроще, то наверное и любой ЯП подойдет.
Единственное что сразу посоветую — работайте с сетью асинхронно и не используйте потоки ОС для распараллеливания. Ну и регулярки я использую только если совсем чуть-чуть данных нужно извлечь. Стараюсь брать DOM парсер и XPath.
Поддержу.
Из плюсов — очень гибкий. Из минусов — очень гибкий =)
Фактически это не библиотека для рисования графиков, а фреймворк для визуализации данных.
Лицензия, если не ошибаюсь, что-то вроде MIT или BSD
о как… Ну если нужно 2 потока отслеживать то, наверное, придется создать именованные пайпы и перенаправить stderr и stdout в них, а «лог-прокси» будет их select()-ом слушать. Ничего проще мне в голову не приходит… Зато с пайпами можно запускать «лог-прокси» отдельно, демона отдельно.