• Как почистить html код?

    kshnkvn
    @kshnkvn
    yay ✌️ t.me/kshnkvn
    Регулярным выражением, как вариант:
    In [1]: foo = 'a:3:{s:6:"update";i:1591804805;s:8:"encoding";s:12:"utf-8";s:4:"urls";a:4:{i:991;a:2:{i:0;s:1:"/";i
       ...: :1;s:66:"<a href="https://site1.com">фильмы онлайн</a>";}i:1113;a:2:{i:0;s:1:"/";i:1;s:108:"Смотреть <a hr
       ...: ef="https://site2.net">кино</a> онлайн без регистрации";}i:1793;a:2:{i:0;s:1:"/";i:1;s:149:"Советую фильмы
       ...:  на сайте <a href="http://site3.online">site3.online</a>";}i:1822;a:2:{i:0;s:1:"/";i:1;s:73:"<a href="http
       ...: s://www.site4.org/">ФИЛЬМЫ - ЛУЧШЕЕ</a> ";}}}'
    
    In [2]: import re
    
    In [3]: a_link_pattern = re.compile(r'\<a\s.+?\<\/a\>')
    
    In [4]: for elem in a_link_pattern.findall(foo):
       ...:     print(elem)
       ...:
    <a href="https://site1.com">фильмы онлайн</a>
    <a href="https://site2.net">кино</a>
    <a href="http://site3.online">site3.online</a>
    <a href="https://www.site4.org/">ФИЛЬМЫ - ЛУЧШЕЕ</a>
    Ответ написан
    1 комментарий
  • Как почистить html код?

    SoreMix
    @SoreMix Куратор тега Python
    yellow
    import re
    
    content = 'a:3:{s:6:"update";i:1591804805;s:8:"encoding";s:12:"utf-8";s:4:"urls";a:4:{i:991;a:2:{i:0;s:1:"/";i:1;s:66:"<a href="https://site1.com">фильмы онлайн</a>";}i:1113;a:2:{i:0;s:1:"/";i:1;s:108:"Смотреть <a href="https://site2.net">кино</a> онлайн без регистрации";}i:1793;a:2:{i:0;s:1:"/";i:1;s:149:"Советую фильмы на сайте <a href="http://site3.online">site3.online</a>";}i:1822;a:2:{i:0;s:1:"/";i:1;s:73:"<a href="https://www.site4.org/">ФИЛЬМЫ - ЛУЧШЕЕ</a> ";}}}'
    
    chunks = re.findall(r'i:1;s:.+?:\"(.+?)";}', content)
    text = ' | '.join(chunks)
    
    print(text)
    Ответ написан
    Комментировать