TosterIQ
@TosterIQ

Регулярное выражение для notepad++?

Есть массив текстовых документов с парсингом содержимого файла robots.txt от различных сайтов. В каждом текстовом файле парсинг robots.txt для многих сайтов. Выглядит примерно следующим образом:

spoiler
WARC/1.0
    WARC-Type: request
    WARC-Date: 2022-05-16T04:43:30Z
    WARC-Record-ID: <urn:uuid:3e478981-ef3c-4844-ace5-6f7bc9684897>
    Content-Length: 257
    Content-Type: application/http; msgtype=request
    WARC-Warcinfo-ID: <urn:uuid:c255f12d-e3dc-4c89-a898-05bf14769d8c>
    WARC-IP-Address: 52.128.23.153
    WARC-Target-URI: http://4access.com/robots.txt
    
    GET /robots.txt HTTP/1.1
    User-Agent: CCBot/2.0 (https://site.com/faq/)
    Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
    Accept-Language: en-US,en;q=0.5
    Accept-Encoding: br,gzip
    Host: 4access.com
    Connection: Keep-Alive
    
    
    
    WARC/1.0
    WARC-Type: response
    WARC-Date: 2022-05-16T04:43:30Z
    WARC-Record-ID: <urn:uuid:f8ed653e-f908-49ae-83f9-646c4667babf>
    Content-Length: 699
    Content-Type: application/http; msgtype=response
    WARC-Warcinfo-ID: <urn:uuid:c255f12d-e3dc-4c89-a898-05bf14769d8c>
    WARC-Concurrent-To: <urn:uuid:3e478981-ef3c-4844-ace5-6f7bc9684897>
    WARC-IP-Address: 52.128.23.153
    WARC-Target-URI: http://4access.com/robots.txt
    WARC-Payload-Digest: sha1:EU3CP6WDJEGMWQXTBODU75HXRBT66EAZ
    WARC-Block-Digest: sha1:XDMHBNLPSO2QP5VI7CIZTYT7EJP5SFD5
    WARC-Identified-Payload-Type: text/x-robots
    
    HTTP/1.1 200 OK
    Server: nginx
    Date: Mon, 16 May 2022 04:43:30 GMT
    Content-Type: text/plain;charset=UTF-8
    X-Crawler-Content-Length: 148
    Content-Length: 274
    Connection: keep-alive
    Keep-Alive: timeout=20
    X-Powered-By: PHP/5.6.33-0+deb8u1
    Vary: Accept-Encoding
    X-Crawler-Content-Encoding: gzip
    Set-Cookie: SRV=lander05|YoHWX|YoHWX; path=/
    Cache-control: private
    X-DIS-Request-ID: c665d4acd9c913449f9e6bdbdf06ed26
    
    
    
    User-Agent: ia_archiver
    Disallow:
     
    User-Agent: *
    Disallow: /note/
    Disallow: /search.php
    Disallow: /click.php
    Disallow: /search_caf.php
    Disallow: /t.php
    Disallow: /exitpage/
    Disallow: /popup/
    Disallow: /r.php
    Disallow: /secondary_feed/
    
    User-agent: MJ12bot
    Disallow: /
    
    Allow: /sitemap.xml
    Allow: /upload/
    Allow: /download/


Помогите совместить строчку Host со строчками Disallow, чтобы получились полноценные ссылки по типу:

4access.com/note/
4access.com/search.php
и т.д.

Повторяюсь, в файле парсинг содержимого robots.txt для многих доменов.
  • Вопрос задан
  • 123 просмотра
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы