Профиль пользователя заблокирован сроком с 14 февраля 2016 г. и навсегда по причине: Снова вопросы не по теме
Ответы пользователя по тегу Парсинг
  • Парсинг выдачи гугла. Как получить полную ссылку?

    sivabur
    @sivabur
    Заблокировали просто так!
    Есть же в коде полные сылки
    <div class="rc" data-hveid="79"><h3 class="r"><a href="http://habrahabr.ru/post/169409/" onmousedown="return rwt(this,'','','','8','AFQjCNFnsS8s7iJf98knI5sbhEHWMhPKBg','pDjHuW4-NiyLV03SAOr2kA','0ahUKEwjeppzQ-ZXKAhVJ_nIKHc1hAekQFghQMAc','','',event)" wotsearchprocessed="true">Парсинг сайтов-магазинов. Личный опыт и немного how-to</a><div wotsearchtarget="habrahabr.ru" style="cursor: pointer; display: inline-block;width: 16px; height: 16px;">&nbsp;</div></h3><div class="s"><div><div class="f kv _SWb" style="white-space:nowrap"><cite class="_Rm">habrahabr.ru/post/169409/</cite><div class="action-menu ab_ctl"><a class="_Fmb ab_button" href="#" id="am-b7" aria-label="Result details" aria-expanded="false" aria-haspopup="true" role="button" jsaction="m.tdd;keydown:m.hbke;keypress:m.mskpe" data-ved="0ahUKEwjeppzQ-ZXKAhVJ_nIKHc1hAekQ7B0IUTAH" wotsearchprocessed="true"><span class="mn-dwn-arw"></span></a><div class="action-menu-panel ab_dropdown" role="menu" tabindex="-1" jsaction="keydown:m.hdke;mouseover:m.hdhne;mouseout:m.hdhue" data-ved="0ahUKEwjeppzQ-ZXKAhVJ_nIKHc1hAekQqR8IUjAH"><ul><li class="action-menu-item ab_dropdownitem" role="menuitem"><a class="fl" href="http://webcache.googleusercontent.com/search?q=cache:PwmzQGr7D3QJ:habrahabr.ru/post/169409/+&amp;cd=8&amp;hl=en&amp;ct=clnk&amp;gl=ua" onmousedown="return rwt(this,'','','','8','AFQjCNELOpA34BVi-o6dCnCV5hO4EkJ7_g','pGbRdVAUf_tYY1wB5R911w','0ahUKEwjeppzQ-ZXKAhVJ_nIKHc1hAekQIAhTMAc','','',event)" wotsearchprocessed="true">Cached</a></li><li class="action-menu-item ab_dropdownitem" role="menuitem"><a class="fl" href="/search?biw=1680&amp;bih=905&amp;q=related:habrahabr.ru/post/169409/+%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3&amp;tbo=1&amp;sa=X&amp;ved=0ahUKEwjeppzQ-ZXKAhVJ_nIKHc1hAekQHwhUMAc" wotsearchprocessed="true">Similar</a></li></ul></div></div><a class="fl" href="https://translate.google.com.ua/translate?hl=en&amp;sl=ru&amp;u=http://habrahabr.ru/post/169409/&amp;prev=search" onmousedown="return rwt(this,'','','','8','AFQjCNGVnBzb8kedmpcx8BJmoVel4dUECQ','RMwJM8-ZG5nx6AZjCHCg7w','0ahUKEwjeppzQ-ZXKAhVJ_nIKHc1hAekQ7gEIVjAH','','',event)" wotsearchprocessed="true">Translate this page</a></div><span class="st"><span class="f">Feb 14, 2013 - </span>Разделим <em>парсинг</em> (скраппинг) сайтов на две подзадачи. Собственно сам <em>парсинг</em> – поиск данных, которые нам интересны на&nbsp;...</span></div></div></div>
    Ответ написан
    Комментировать
  • Как сохранить адрес ссылок на сайте?

    sivabur
    @sivabur
    Заблокировали просто так!
    регулярки(или хтмл парсеры под пхп)+curl.
    Но если проект серьезный и много страниц и важна скорость тогда с++.
    Ответ написан
    Комментировать
  • Парсер выдачи google?

    sivabur
    @sivabur
    Заблокировали просто так!
    На php и напишите(curl+любая либа парсер html) если проблем с антигейтом и проксями нет).Писал такую штуку на с# ну мне 10 страниц достаточно было. -Это вам бесплатный вариант

    Хотя прокси и антигейт тоже денег стоят. Так что возможно есть резон заплатить. Есть прога еще Словоёб(бесплатная) помоему то что вам нужно.
    Ответ написан
  • Как с помощью PHP можно распарсить PDF?

    sivabur
    @sivabur
    Заблокировали просто так!
    Класс pastebin.com/dvwySU1a
    include('class.pdf2text.php');
    $a = new PDF2Text();
    $a->setFilename('Videographer_RFP.pdf'); //grab the test file at http://www.newyorklivearts.org/Videographer_RFP.pdf
    $a->decodePDF();
    echo $a->output();


    Тока проблемы есть с некоторыми символами сам пока разбираюсь почему
    Но тут будет чистый текст.
    Ответ написан
    Комментировать
  • Как проверять прокси?

    sivabur
    @sivabur
    Заблокировали просто так!
    Чаще всего проблем с проксями нету.
    Но если хочешь проверить автоматически:
    Делаешь запрос CURL через прокси(в цыкле подсовывая каждый раз новый прокси) на сайт которые тебе надо проверить
    1. Вариант посылаешь HTTP GET запрос смотришь ответ
    2. Вариант посылать HTTP HEAD запрос.Не будет приходить тело сэкономишь немного времени.
    3. Вариант читать с потока тока первую строку если == HTTP/1.1 200 то прокси не заблокировано. Т. е . вариант еще быстрей.

    Ну тайм аут для прокси еще поставить и тайм аут на ожидания ответа и тайм аут на время чтения данных.Вот вроде все для скоростного перебора.Ну еще многопоточность туда можешь прицепить CURL с ней вроде работает.

    Ну а вообще это лучше не на php писать.
    Ответ написан
    Комментировать