google_online
@google_online
My morning begins with coffee and Twitter.

Как/чем парсить srt файл?

Есть subs.srt файл с такой структурой

1
00:00:06,900 --> 00:00:11,460
<font color="#CCCCCC">I want to go to Germany</font><font color="#E5E5E5"> someday yeah</font>

2
00:00:11,460 --> 00:00:13,830
yeah I'm reading<font color="#E5E5E5"> about France at the</font>

3
00:00:13,830 --> 00:00:15,809
<font color="#E5E5E5">moment and I want to talk to your cousin</font>

4
00:00:15,809 --> 00:00:18,780
<font color="#E5E5E5">Kelly about France</font><font color="#CCCCCC"> I want I really want</font>

5
00:00:18,780 --> 00:00:22,230
to go to<font color="#E5E5E5"> France</font><font color="#CCCCCC"> I want to speak a second</font>


Как я могу получить текст? Регулярками или может есть библиотека какая-нибудь специальная чтобы можно было получить текст. Или просто Beautifulsoup ? Некоторый текст в файле, не завёрнут в тег
  • Вопрос задан
  • 164 просмотра
Решения вопроса 2
JRazor
@JRazor
Senior StarkOverFlow Programmer
Если делать по нормальному:
1) Убрать ненужные строки
\n?^\d+\n\d{2}:\d{2}:\d{2},\d{3}\s-->\s\d{2}:\d{2}:\d{2},\d{3}\n

2) Убрать переносы \n
3) Убрать font </?font(\scolor="#[\d\w]{6}")?>

Можешь всё в одно закинуть
(\n?^\d+\n\d{2}:\d{2}:\d{2},\d{3}\s-->\s\d{2}:\d{2}:\d{2},\d{3}\n|\n|</?font(\scolor="#[\d\w]{6}")?>)

Менять всё на пустую строку, разумеется
Ответ написан
Комментировать
ScriptKiddo
@ScriptKiddo
Попробуйте эту библиотеку

https://pypi.org/project/srt/

Пример: https://srt.readthedocs.io/en/latest/quickstart.html
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы