Ответы пользователя по тегу Алгоритмы
  • Как получить с html страницы название организации, не заходя вручную?

    vacuumn
    @vacuumn

    Нужно парсить HTML, но только не делай это через регулярные выражения. Каждый раз когда ты парсишь HTML регулярками — в мире умирает один разработчик.

    Для Хабра, например футер легко найти, у него логичный id:

    <div id="footer">
    
    Дальше ты берешь весь текст из футера и ищешь там название компании и ссылки на страницу "Контакты". 
    
    У других сайтов футер или хедер найти будет тяжелее. Нужно будет проанализировать несколько десятков сайтов и составить список правил, по котором можно будет легко найти в коде страницы блоки с нужными елементами.</div>

    Ответ написан
    2 комментария