Существует ли такой парсер xml или html?

Question

itfan @itfan

Существует ли такой парсер xml или html?

В разных ЯП есть библиотеки для парсинга html или xml. А существует ли какой-то готовый продукт под это дело? Допустим, я каким-нибудь Телепорт Про скачаю 1000 html-страниц. Потом указываю программе папку с файлами и шаблон для выборки. Например, взять из каждого файла содержимое заголовков или списков. Кто-то такое видел? Интересует также готовое решение для выборки из xml.

Вопрос задан более трёх лет назад
412 просмотров

Комментировать

Подписаться 3 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Frontend-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по тестированию + ИИ

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

HTML

+2 ещё

Простой
Как запретить формирования ссылок вида /tel:?
- 2 подписчика
- 01 июл.
- 293 просмотра
3

ответа
HTML

+1 ещё

Средний
Как выставить элементу ширину по содержимому при переносах?
- 1 подписчик
- 30 июн.
- 169 просмотров
1

ответ
HTML

+3 ещё

Средний
Как создать каркас верстки который будет считаться по высоте, а не по ширине?
- 4 подписчика
- 26 июн.
- 392 просмотра
4

ответа
JavaScript

+2 ещё

Простой
Не работает тень + слайдер, есть варианты?
- 2 подписчика
- 21 июн.
- 201 просмотр
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 621 просмотр
2

ответа
HTML

+1 ещё

Простой
Как оформить так карточку типа бенто стиль?
- 1 подписчик
- 13 июн.
- 240 просмотров
3

ответа
HTML

+2 ещё

Простой
Как блок уведомлений поднять выше dialog?
- 2 подписчика
- 21 мая
- 197 просмотров
2

ответа
HTML

+1 ещё

Простой
Как свг заменить на фон?
- 1 подписчик
- 08 мая
- 300 просмотров
1

ответ
HTML

+1 ещё

Простой
Чем препроцессить в HTML сокращения?
- 2 подписчика
- 04 мая
- 354 просмотра
1

ответ
JavaScript

+1 ещё

Простой
Почему у поля input атрибут required не срабатывает?
- 2 подписчика
- 01 мая
- 392 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2020-10-30 22:41:41

Такую задачу можно решить на любом языке программирования, но готовых решений вы не найдете, надо писать самому. Сам бы я написал такой парсер на JavaScript и тупо оформил его в виде небольшого локального html-файла: открыл этот файлик в браузере, подцепил в поле input type="file" папку из диска, а дальше JavaScript-ом читаем все файлы из выбранной папки и распарсиваем при помощи new DOMParser().

Почему именно JavaScript, а не php или python? Просто JavaScript самый идеальный язык для парсинга html. Там из под коробки есть богатейший набор инструментов для работы с html-кодом, ни один другой язык так хорошо не умеет работать с html, как JavaScript - ведь он буквально создан для этого.

Answer 2 · 2020-10-30 22:14:32

Может такое и есть, но там нет "волшебной" кнопки. Нужно немного знать структуру html документа. Я такое делаю на Python. Парсингу на python можно научится за недельку-вторую. Но если знать другие ЯП, то быстрее. Если такой парсер писать самому, то у своего парсера будут неограниченные возможности.
Вот пример:

import requests
from bs4 import BeautifulSoup
from lxml import html
import os

def parsing(filename):
	with open(filename) as file:
		data = file.read()

	soup = BeautifulSoup(data,"html.parser")
	title = soup.find('h1',class_='question__title').text.strip()
	print(title)

os.chdir('html')
fileList = os.listdir('./')

for file in fileList:
	parsing(f)

Скачиваем несколько страниц с этого сайта в папку html, запускаем скрипт и он выводит заголовки вопросов на консоль. Можно заголовки(и другие данные) сохранять в файл или бд.

Answer 3 · 2020-10-31 07:31:02

Dimonchik @dimonchik2013

non progredi est regredi

помоему в content downloader было что-то подобное, но проще скриптами

Ответ написан более трёх лет назад

Комментировать

Существует ли такой парсер xml или html?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт