Ответы, понравившиеся пользователю Yalg

Задать вопрос

Лайки

Как спарсить текст(новеллы с сайтов) в тхт?

SunUp @SunUp

Я не волшебник, я ещё только учусь

Простых готовых решений для парсинга нет, есть только библиотеки для различных ЯП. Поэтому ответ на вопрос "Как спарсить текст?" звучит так: написать парсер для этого сайта, например такой, как написал вчера я на Python, или найти того кто напишет.

from bs4 import BeautifulSoup
import requests
import time


base_url = 'http://gravitytales.com/novel/the-lords-empire/tle-chapter-'
last_chapter = 500

def get_html(url):
  html = requests.get(url)
  if html.status_code == 200:
    html.encoding = 'utf-8'
    return html.text
  else:
    print('Status code {0}'.format(html.status_code))
    return ''

def parse(html):
  text = ''
  soup = BeautifulSoup(html, 'lxml')
  title_tag = soup.find('title').get_text()
  title = title_tag.split('-')[1].strip()
  title = title + '\n\n'
  paragraphs = soup.find('div', class_='innerContent').find_all('p')[3:]
  for paragraph in paragraphs:
    text += paragraph.get_text() + '\n'
  return [title, text]

def write(title, text):
  with open('novel.txt', 'a') as file:
    file.write(title)
    file.write(text)
  print(title[:-2] + ' was downloaded successfully!')

def main():
  with open('novel.txt', 'w') as file:
    file.write('')
  for index in range(0, last_chapter+1):
    html = get_html(base_url + str(index))
    if html != '':
      title, chapter = parse(html)
      write(title, chapter)
    time.sleep(1)


if __name__ == '__main__':
  main()

Ответ написан более трёх лет назад

Комментировать

Самые активные сегодня

Пума Тайланд
- 2 ответа
- 0 вопросов
Steel_Balls
- 1 ответ
- 0 вопросов
Никита Михайловский
- 1 ответ
- 0 вопросов
pavelmon
- 0 ответов
- 1 вопрос
Сергей
- 1 ответ
- 0 вопросов
Анна
- 0 ответов
- 1 вопрос

Как спарсить текст(новеллы с сайтов) в тхт?

Войдите на сайт