Himikat
@Himikat
SEO, IT

Парсинг данных из текста?

Имеется множество файлов (сотни) такого типа:
https://drive.google.com/file/d/1kmBgtS-C5BTGYVAGS...

spoiler
WARC/1.0
WARC-Type: request
WARC-Date: 2023-09-21T07:41:45Z
WARC-Record-ID: <urn:uuid:c6e155f8-1c6a-4fc3-b208-ae7cd5deb976>
Content-Length: 265
Content-Type: application/http; msgtype=request
WARC-Warcinfo-ID: <urn:uuid:f3c3fd78-dee2-4eac-8c8f-a371cbbe9dbf>
WARC-IP-Address: 104.21.5.22
WARC-Target-URI: https://masterbootrecord.de/robots.txt

GET /robots.txt HTTP/1.1
User-Agent: CCBot/2.0 ()
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: br,gzip
Host: masterbootrecord.de
Connection: Keep-Alive



WARC/1.0
WARC-Type: response
WARC-Date: 2023-09-21T07:41:45Z
WARC-Record-ID: <urn:uuid:7984a5eb-4495-4450-8d6c-90e53085ff97>
Content-Length: 1026
Content-Type: application/http; msgtype=response
WARC-Warcinfo-ID: <urn:uuid:f3c3fd78-dee2-4eac-8c8f-a371cbbe9dbf>
WARC-Concurrent-To: <urn:uuid:c6e155f8-1c6a-4fc3-b208-ae7cd5deb976>
WARC-IP-Address: 104.21.5.22
WARC-Target-URI: https://masterbootrecord.de/robots.txt
WARC-Payload-Digest: sha1:RL2AI35UKJ7FJ4IKZ5KWATKMSWHZI446
WARC-Block-Digest: sha1:BCRHD4NOKT5Z6CGSABF3HKPPCDXZW75K
WARC-Identified-Payload-Type: text/x-robots

HTTP/1.1 200 OK
Date: Thu, 21 Sep 2023 07:41:45 GMT
Content-Type: text/plain
X-Crawler-Transfer-Encoding: chunked
Connection: keep-alive
Last-Modified: Wed, 16 Oct 2013 17:59:21 GMT
ETag: W/"e9-4e8df75f23040-gzip"
Vary: Accept-Encoding
X-Powered-By: PleskLin
Cache-Control: max-age=31536000
CF-Cache-Status: EXPIRED
Report-To: {"endpoints":[{"url":"https:\/\/a.nel.cloudflare.com\/report\/v3?s=sNVdx73bY6oz2VBHX75Bn4NdY%2BTfKkl1Zd6FCV1O7NwGnK0HtRRYEGSh0sLI8QpZLkgxiIrFTBL8jamADsFiMFPzR25IoPipL%2Ff%2FKk3SFtc2v%2Fnt34OIB1%2F6S7qdoYZ9C9ZE0iU6"}],"group":"cf-nel","max_age":604800}
NEL: {"success_fraction":0,"report_to":"cf-nel","max_age":604800}
Server: cloudflare
CF-RAY: 80a0aae40e5b6fcd-IAD
X-Crawler-Content-Encoding: br
alt-svc: h3=":443"; ma=86400
Content-Length: 233

User-agent: *
Disallow: /files/
Disallow: /Cache/
Disallow: /cgi-bin/
Disallow: /ie7/
Disallow: /include/
Disallow: /rdf/
Disallow: /support/
Disallow: /docs/advancedremoteinfo_register.php

User-agent: Mediapartners-Google
Disallow:


В них собрано содержимое файла robots.txt для разных сайтов. Так же много мусора имеется, поскольку парсинг естественно не идеальный был. Среди всего этого содержимого, мне надо программой (массово, для всех файлов сразу) для Windows, чтобы я к такому виду мог привести:
1 вариант, оптимальный:
- я ввожу ключевое слово, к примеру Disallow: /calendar/ и везде, где в файлах robots.txt, есть эта строчка, мне будет выстраивать список всех сайтов, такого формата:
https://masterbootrecord.de/calendar/
и т.д.
2 вариант, менее оптимальный:
преобразовать все содержимое файла (содержимое файлов robots.txt, для соответствующих им сайтов) в ссылки, тоесть без выборки, все что есть:
https://masterbootrecord.de/calendar/
https://masterbootrecord.de/musica
https://masterbootrecord.de/books/about
и т.д.

Адрес сайта находится в строке:
WARC-Target-URI: https://masterbootrecord.de/robots.txt
  • Вопрос задан
  • 147 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы