Есть массив текстовых документов с парсингом содержимого файла robots.txt от различных сайтов. В каждом текстовом файле парсинг robots.txt для многих сайтов. Выглядит примерно следующим образом:
spoilerWARC/1.0
WARC-Type: request
WARC-Date: 2022-05-16T04:43:30Z
WARC-Record-ID: <urn:uuid:3e478981-ef3c-4844-ace5-6f7bc9684897>
Content-Length: 257
Content-Type: application/http; msgtype=request
WARC-Warcinfo-ID: <urn:uuid:c255f12d-e3dc-4c89-a898-05bf14769d8c>
WARC-IP-Address: 52.128.23.153
WARC-Target-URI: http://4access.com/robots.txt
GET /robots.txt HTTP/1.1
User-Agent: CCBot/2.0 (https://site.com/faq/)
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: br,gzip
Host: 4access.com
Connection: Keep-Alive
WARC/1.0
WARC-Type: response
WARC-Date: 2022-05-16T04:43:30Z
WARC-Record-ID: <urn:uuid:f8ed653e-f908-49ae-83f9-646c4667babf>
Content-Length: 699
Content-Type: application/http; msgtype=response
WARC-Warcinfo-ID: <urn:uuid:c255f12d-e3dc-4c89-a898-05bf14769d8c>
WARC-Concurrent-To: <urn:uuid:3e478981-ef3c-4844-ace5-6f7bc9684897>
WARC-IP-Address: 52.128.23.153
WARC-Target-URI: http://4access.com/robots.txt
WARC-Payload-Digest: sha1:EU3CP6WDJEGMWQXTBODU75HXRBT66EAZ
WARC-Block-Digest: sha1:XDMHBNLPSO2QP5VI7CIZTYT7EJP5SFD5
WARC-Identified-Payload-Type: text/x-robots
HTTP/1.1 200 OK
Server: nginx
Date: Mon, 16 May 2022 04:43:30 GMT
Content-Type: text/plain;charset=UTF-8
X-Crawler-Content-Length: 148
Content-Length: 274
Connection: keep-alive
Keep-Alive: timeout=20
X-Powered-By: PHP/5.6.33-0+deb8u1
Vary: Accept-Encoding
X-Crawler-Content-Encoding: gzip
Set-Cookie: SRV=lander05|YoHWX|YoHWX; path=/
Cache-control: private
X-DIS-Request-ID: c665d4acd9c913449f9e6bdbdf06ed26
User-Agent: ia_archiver
Disallow:
User-Agent: *
Disallow: /note/
Disallow: /search.php
Disallow: /click.php
Disallow: /search_caf.php
Disallow: /t.php
Disallow: /exitpage/
Disallow: /popup/
Disallow: /r.php
Disallow: /secondary_feed/
User-agent: MJ12bot
Disallow: /
Allow: /sitemap.xml
Allow: /upload/
Allow: /download/
Помогите совместить строчку Host со строчками Disallow, чтобы получились полноценные ссылки по типу:
4access.com/note/
4access.com/search.php
и т.д.
Повторяюсь, в файле парсинг содержимого robots.txt для многих доменов.