Как распарсить таблицу с помощью soup имея только контент столбцов без атрибутов?

Question

AnilVia @AnilVia

Как распарсить таблицу с помощью soup имея только контент столбцов без атрибутов?

Если описывать более детально, то мне нужно было получить таблицу с одного сайтика и распарсить её и всё это на python.
С первой задачей я справился легко, просто дёрнул всю страничку и с помощью парсера, вырезал нужную мне таблицу, но таблица была без классов, айдишнииков, в общем без любых указателей на содержание контента.
Тут и возникла трудность в её парсинге, ведь я хотел получать конкретные строки из этой таблицы и конкретные столбцы с нужными мне данными.
Это ещё пол беды, помимо этого количество строк в таблице постоянно меняется.

она имеет вид

<table class="my_own">
<tbody>
<tr>
        <th> Пн </th>
        <th> ... </th>
        <th> ... </th>
        <th> ... </th>
        <th> ... </th>
        <th> ... </th>
        <th> ... </th>
        <th> ... </th>	
</tr>
<tr>...
</tbody>
</table>

Столбцов tr очень много и мне бы хотелось взять данные для дальнейшего форматирования только тех столбцов, где в начале присутствует Пн.

Вопрос задан более трёх лет назад
84 просмотра

8 комментариев

Подписаться 1 Простой 8 комментариев

Siverius @Siverius

Пссст, парень, innerText (но тег php у твоего вопроса лучше поменять на js)

Написано более трёх лет назад
Алан Гибизов @phaggi

Можно ли найти теги по их содержимому?

Можно.

Написано более трёх лет назад

v3shin @v3shin

Как-то так?

let i = getColumnWithContent('Пн'); // любым способом получаем номер столбца
myTable.querySelectorAll(`td:nth-child(${i})`).forEach(td => doSmth(td)); // выбираем из каждого ряда ячейку с нужным номером

Написано более трёх лет назад

AnilVia @AnilVia Автор вопроса

v3shin, Спасибо за ответ.
к сожалению мне поменяли теги на вопросе, видимо я не достаточно детально описал вопрос.
Я искал способ парсинга таблицы для pyton, поскольку она приходила без классов и id, это заставило меня пробегать и парсить столбцы по отдельности, а уже из разбитой информации составлять переменные а из них уже нужные мне строки, весело в общем

Написано более трёх лет назад
AnilVia @AnilVia Автор вопроса

Siverius, Сейчас переформулирую вопрос, видимо я дал слишком мало информации

Написано более трёх лет назад
AnilVia @AnilVia Автор вопроса

Алан Гибизов, Спасибо.

Написано более трёх лет назад
Алан Гибизов @phaggi

AnilVia, вы неправильно ставите тэги. Python надо ставить, когда у вас суть проблемы в python, и вы приносите фрагмент кода python, в котором проблема. Простого упоминания Python не достаточно для публикации в этот тэг.
Soap тэг вообще никак не относится к парсингу, вы его ставите по ошибке.
Возможно, вы хотели поставить тэг beautiful soup, но его опять же имело смысл ставить только вместе с кодом, отображающим вашу попытку решения в вопросе.
Вы привели фрагмент кода html - тэг html уместен. Вы спрашиваете о парсинге - тэг парсинг уместен.

Написано более трёх лет назад
AnilVia @AnilVia Автор вопроса

Решил вопрос, С помощью Soup, как и хотел.
Подвёл Soup к нужной таблице используя find , затем в ход пошёл раннее созданный мной цикл и метод .contents[] Пробежался построчно и поместил каждую ячейку в свою переменную, дальше создал list и с помощью метода extend дополнял лист в избежание потери переменных.
Поскольку количество столбцов одинаково, то и количество дополняемых объектов в list будет одинаково, после чего ими всеми можно будет воспользоваться.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Stepik

Основы HTML и CSS

2 недели

Далее
Бруноям

Вёрстка на HTML и CSS

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

HTML

+2 ещё

Простой
Как решить проблему в верстке?
- 1 подписчик
- 4 часа назад
- 34 просмотра
0

ответов
JavaScript

+2 ещё

Средний
Как можно реализовать что то вроде селекта внутри родителя у которого есть скрытые элементы и должна быть горизонтальная прокрутка?
- 1 подписчик
- вчера
- 90 просмотров
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 377 просмотров
2

ответа
JavaScript

+2 ещё

Простой
Как сделать резкое переключение слайдов?
- 1 подписчик
- 03 дек.
- 161 просмотр
0

ответов
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 254 просмотра
1

ответ
HTML

+1 ещё

Средний
В какую сторону копать решение чтобы решить проблему с наложением?
- 1 подписчик
- 22 нояб.
- 142 просмотра
0

ответов
HTML

+1 ещё

Простой
Как растянуть вложенный блок внутри других блоков на максимальную длину, но не более чем на ширину страницы?
- 1 подписчик
- 21 нояб.
- 143 просмотра
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 536 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 393 просмотра
2

ответа
HTML

+1 ещё

Простой
Как реализовать форму ввода как в веб-версии chatGPT?
- 3 подписчика
- 13 нояб.
- 238 просмотров
0

ответов
Показать ещё Загружается…

WordPress (PHP, HTML/CSS) разработчик

Epiic

от 90 000 ₽

Frontend-разработчик (Vanilla JS, high-load media platform)

Karma8

от 200 000 до 300 000 ₽

Frontend разработчик React / Next.js

PurpleSchool

До 65 000 ₽

Пссст, парень, innerText (но тег php у твоего вопроса лучше поменять на js)
Можно ли найти теги по их содержимому?

Можно.
Как-то так?

let i = getColumnWithContent('Пн'); // любым способом получаем номер столбца myTable.querySelectorAll(`td:nth-child(${i})`).forEach(td => doSmth(td)); // выбираем из каждого ряда ячейку с нужным номером
v3shin, Спасибо за ответ.
к сожалению мне поменяли теги на вопросе, видимо я не достаточно детально описал вопрос.
Я искал способ парсинга таблицы для pyton, поскольку она приходила без классов и id, это заставило меня пробегать и парсить столбцы по отдельности, а уже из разбитой информации составлять переменные а из них уже нужные мне строки, весело в общем
Siverius, Сейчас переформулирую вопрос, видимо я дал слишком мало информации
AnilVia, вы неправильно ставите тэги. Python надо ставить, когда у вас суть проблемы в python, и вы приносите фрагмент кода python, в котором проблема. Простого упоминания Python не достаточно для публикации в этот тэг.
Soap тэг вообще никак не относится к парсингу, вы его ставите по ошибке.
Возможно, вы хотели поставить тэг beautiful soup, но его опять же имело смысл ставить только вместе с кодом, отображающим вашу попытку решения в вопросе.
Вы привели фрагмент кода html - тэг html уместен. Вы спрашиваете о парсинге - тэг парсинг уместен.
Решил вопрос, С помощью Soup, как и хотел.
Подвёл Soup к нужной таблице используя find , затем в ход пошёл раннее созданный мной цикл и метод .contents[] Пробежался построчно и поместил каждую ячейку в свою переменную, дальше создал list и с помощью метода extend дополнял лист в избежание потери переменных.
Поскольку количество столбцов одинаково, то и количество дополняемых объектов в list будет одинаково, после чего ими всеми можно будет воспользоваться.

Answer 1 · 2022-10-07 16:46:28

Nik Faraday @NikFaraday

Student full-stack Developer

Можно. Используйте javascript (Ссылка на статью по вопросу) или jquery (Ссылка на статью по вопросу)

Ответ написан более трёх лет назад

1 комментарий

Как распарсить таблицу с помощью soup имея только контент столбцов без атрибутов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт