@nationalproga

Как обрабатывать все файлы одного расширения на Python?

Добрый вечер. Пишу приложение, используя библиотеку streamlit, и на данном этапе, реализую метод шинглов. И при реализации возникла небольшая проблема, я не совсем понимаю, как сделать так, чтобы я мог добавлять разные файлы, а не только те, которые написаны в программе. 5fbed6f128cd0264431850.png
То есть я пытаюсь, чтобы, где прописано text1 и text2 на вход мог быть любой файл docx, а не только те, который я пропишу там.
  • Вопрос задан
  • 53 просмотра
Пригласить эксперта
Ответы на вопрос 1
@Black_and_green
Developer - chigrin.xyz
offtopic
У вас, к сожалению, очень сильно не хватает базы в программировании и пользовательского опыта. Советую прежде чем разбираться с ML пройти курс по Python. Хорошо подойдут, например, эти курсы на stepik (бесплатно) Начальный и Продвинутый

В данный момент у вас в программе нет файлов. Есть две строки, которые сохранены в переменные text1 и text2. Чтобы загрузить файл в переменную, его нужно считать. Если это простой текстовый файл (формат txt), то поищите чтение из файла python. Если вы хотите, читать более сложный формат - например, docx - то необходимо использовать библиотеку, которая умеет с ним работать. О том, как считать весь файл в строку (простейшее использование), обычно указывают в примерах в документации библиотеки. Ищите docx python.

Стоит также помнить, что такой подход (загрузка всего файла в память), может не сработать с большими файлами и тогда стоит использовать потоковые методы обработки. "Чтение строки - обработка" и так до конца файла.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы