Как распарсить несколько url из файла в формате «excel»?

Question

Fokinura_3000 @Fokinura_3000

Как распарсить несколько url из файла в формате «excel»?

Есть экселевский файл, который содержит ссылки в одном столбике.
Как правильно вытащить название приложений, которые он выдает по ссылкам?

Пример файла на картинке:

Продублирую сюда часть ссылок из списка:

https://play.google.com/store/apps/details?id=com.vkontakte.android
https://play.google.com/store/apps/details?id=ru.ok.android
https://play.google.com/store/apps/details?id=com.outfit7.talkingtomgoldrun
https://play.google.com/store/apps/details?id=com.tapclap.piratetreasures2
https://play.google.com/store/apps/details?id=com.openmygame.games.android.wordpizza
https://play.google.com/store/apps/details?id=com.outfit7.mytalkingtomfriends
https://play.google.com/store/apps/details?id=com.hornet.android

Образец моего кода:

import requests
from bs4 import BeautifulSoup
import pandas as pd

df = pd.read_excel('ids.xlsx')
url = df

for urlibs in url:
    response = requests.get(urlibs)
    soup = BeautifulSoup(response.text, 'lxml')
    quotes = soup.find_all('h1', class_='AHFaub')
for quote in quotes:
    print(quote.text)

При моём коде выдаёт только первую строчку, а как можно получит все строчки?

Вопрос задан более трёх лет назад
506 просмотров

16 комментариев

Подписаться 2 Средний 16 комментариев

сергей кузьмин @sergueik

какая ошибка возникает со вторым и далее url ?

Написано более трёх лет назад
kapp1 @kapp1

Ты открываешь excel как давай фрейм и тут же пытаешься по нему итерироваться циклом. Так ничего не получится. Попробуй итерироваться по значению, примерно так
df = pd.read_excel('ids.xlsx')

for index, value in df.items():
print(f"Index : {index}, Value : {value}")

Написано более трёх лет назад
Fokinura_3000 @Fokinura_3000 Автор вопроса

сергей кузьмин, Ошибок нет, 1 url возвращает весь список, а второй именно (urlibs) возвращает только 1-ую строчку

Написано более трёх лет назад
Fokinura_3000 @Fokinura_3000 Автор вопроса

kapp1,
А чем данный способ отличается от моего?))
Я просто логику дальнейших действий не улавливаю
Может мне как-то просто в текстовый файл перегнать эксель или в json?

Написано более трёх лет назад
kapp1 @kapp1

Fokinura_3000, так ты попробуй в своём способе вызвать
for urlibs in url:
print(urlibs)

и посмотри, что ты получаешь.

Написано более трёх лет назад
Fokinura_3000 @Fokinura_3000 Автор вопроса

kapp1,
Ничего не меняется, как бы я не крутил, выдаёт один нейминг только
Может, я что-то не так написал, если будет возможность, подскажите, пожалуйста, что и куда вставить

Написано более трёх лет назад
kapp1 @kapp1

Fokinura_3000, окай, выполни вот такой код

import requests
from bs4 import BeautifulSoup
import pandas as pd

df = pd.read_excel('ids.xlsx')
url = df

for urlibs in url:
print(urlibs)

вот только то что я написал

покажи что получилось

Написано более трёх лет назад
Fokinura_3000 @Fokinura_3000 Автор вопроса

kapp1,
Только 1 ссылка вылезла

Написано более трёх лет назад
kapp1 @kapp1

Fokinura_3000, всё верно, как я и писал) потому то нельзя просто так циклом пробежаться по df, я описал как надо по нему проходить
for index, value in df.items():

и вот value (а это и будет строка ссылки надо подавать на вход в

response = requests.get(value)
soup = BeautifulSoup(response.text, 'lxml')
quotes = soup.find_all('h1', class_='AHFaub')
for quote in quotes:
print(quote.text)

Написано более трёх лет назад
kapp1 @kapp1

А вообще если тяжело разобраться в пандас, лучше сохраняй в txt и читай построчно циклом.

Написано более трёх лет назад
Fokinura_3000 @Fokinura_3000 Автор вопроса

kapp1, Я value так же подставлял вместо index'a
Выдаёт такую вот ошибку
Код:

Написано более трёх лет назад

kapp1 @kapp1

Лол ты наверно издеваешься)

Перепиши код нормально

Цикл индес, велью по юрл:
    внутри цикла реквест от value
    соуп = бла бла бла
    квотес = бла бла бла
    цикл по квоте
         принт квоты

Написано более трёх лет назад

Fokinura_3000 @Fokinura_3000 Автор вопроса

kapp1,
Ошибка такая же, как и в предыдущем комменте

Написано более трёх лет назад
сергей кузьмин @sergueik

Fokinura_3000, вы бе напечатали *отладочную информацию перед тем как читать страницу супом - какой урл какой тескт страницы

и если можно не надо скриншотов публикуйте текст

Написано более трёх лет назад
Fokinura_3000 @Fokinura_3000 Автор вопроса

сергей кузьмин, Хорошо, прошу прощения, буду текстом писать))
А что вы имеете ввиду под отладочной информацией?))
Урл должен браться из таблицы, эксель/csv - откуда именно, значение не имеет
Текст страницы - только название приложения

Написано более трёх лет назад
сергей кузьмин @sergueik

надо это все на консоль напечатаь прежде чем суп звать
мое подрзрение так как урлы все разные xpath годный для одного может не работать в других но отладка покажет это и другое

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

6 комментариев

Fokinura_3000 @Fokinura_3000 Автор вопроса

Пробовал, я в первую очередь всё сохранял в csv, только итог такой же, как с экселем

Написано более трёх лет назад
xotkot @xotkot

Fokinura_3000, какой именно итог ?

Есть экселевский файл, который содержит ссылки в одном столбике

после сохранения/конвертации в csv у вас по итогу будет простой текстовый файл в каждой строке которого будет одна ссылка, а с таким работать уже проще некуда

Написано более трёх лет назад
Fokinura_3000 @Fokinura_3000 Автор вопроса

xotkot, Черт, заработало!)))
Действительно, спасибо большое!))
Долго грузит, но работает!))
Обнимаю и жму руку!))
От души!))
Только, если сохранять csv через гугл диск - тогда работает))

Написано более трёх лет назад

xotkot @xotkot

Fokinura_3000,
не знаю что у вас там так долго грузит, всё это довольно просто делается через консольные утилиты
unoconv или libreoffice для преобразования в csv, а там уже через awk достать нужное:

$ libreoffice --headless --convert-to csv in.xlsx --outdir conv/
$ cat conv/in.csv
https://play.google.com/store/apps/details?id=com.vkontakte.android
https://play.google.com/store/apps/details?id=ru.ok.android
https://play.google.com/store/apps/details?id=com.outfit7.talkingtomgoldrun
https://play.google.com/store/apps/details?id=com.tapclap.piratetreasures2
https://play.google.com/store/apps/details?id=com.openmygame.games.android.wordpizza
https://play.google.com/store/apps/details?id=com.outfit7.mytalkingtomfriends
https://play.google.com/store/apps/details?id=com.hornet.android
$ awk -F'[.=]' '{print $5}' conv/in.csv > conv/out.txt
$ cat conv/out.txt
vkontakte
ok
outfit7
tapclap
openmygame
outfit7
hornet

Написано более трёх лет назад

Fokinura_3000 @Fokinura_3000 Автор вопроса

xotkot, Нет, в csv быстро преобразовывается, а вот парсит каждую ссылку долго((
У меня их там штук под 3к+

Написано более трёх лет назад
сергей кузьмин @sergueik

Fokinura_3000, осталось оптимизировать

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 149 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 105 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 92 просмотра
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 181 просмотр
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 93 просмотра
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 415 просмотров
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 237 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 365 просмотров
2

ответа
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 273 просмотра
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 172 просмотра
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

какая ошибка возникает со вторым и далее url ?
Ты открываешь excel как давай фрейм и тут же пытаешься по нему итерироваться циклом. Так ничего не получится. Попробуй итерироваться по значению, примерно так
df = pd.read_excel('ids.xlsx')

for index, value in df.items():
print(f"Index : {index}, Value : {value}")
сергей кузьмин, Ошибок нет, 1 url возвращает весь список, а второй именно (urlibs) возвращает только 1-ую строчку
kapp1,
А чем данный способ отличается от моего?))
Я просто логику дальнейших действий не улавливаю
Может мне как-то просто в текстовый файл перегнать эксель или в json?
Fokinura_3000, так ты попробуй в своём способе вызвать
for urlibs in url:
print(urlibs)

и посмотри, что ты получаешь.
kapp1,
Ничего не меняется, как бы я не крутил, выдаёт один нейминг только
Может, я что-то не так написал, если будет возможность, подскажите, пожалуйста, что и куда вставить
Fokinura_3000, окай, выполни вот такой код

import requests
from bs4 import BeautifulSoup
import pandas as pd

df = pd.read_excel('ids.xlsx')
url = df

for urlibs in url:
print(urlibs)

вот только то что я написал

покажи что получилось
Fokinura_3000, всё верно, как я и писал) потому то нельзя просто так циклом пробежаться по df, я описал как надо по нему проходить
for index, value in df.items():

и вот value (а это и будет строка ссылки надо подавать на вход в

response = requests.get(value)
soup = BeautifulSoup(response.text, 'lxml')
quotes = soup.find_all('h1', class_='AHFaub')
for quote in quotes:
print(quote.text)
А вообще если тяжело разобраться в пандас, лучше сохраняй в txt и читай построчно циклом.
kapp1, Я value так же подставлял вместо index'a
Выдаёт такую вот ошибку
Код:
Лол ты наверно издеваешься)

Перепиши код нормально

Цикл индес, велью по юрл: внутри цикла реквест от value соуп = бла бла бла квотес = бла бла бла цикл по квоте принт квоты
kapp1,
Ошибка такая же, как и в предыдущем комменте
Fokinura_3000, вы бе напечатали *отладочную информацию перед тем как читать страницу супом - какой урл какой тескт страницы

и если можно не надо скриншотов публикуйте текст
сергей кузьмин, Хорошо, прошу прощения, буду текстом писать))
А что вы имеете ввиду под отладочной информацией?))
Урл должен браться из таблицы, эксель/csv - откуда именно, значение не имеет
Текст страницы - только название приложения
надо это все на консоль напечатаь прежде чем суп звать
мое подрзрение так как урлы все разные xpath годный для одного может не работать в других но отладка покажет это и другое

Answer 1 · 2022-01-18 23:18:14

xotkot @xotkot

хорошо есть и хорошо весьма

сохраняйте документ в csv, а его уже любым удобным инструментом обрабатывайте

Ответ написан более трёх лет назад

6 комментариев

Answer 2 · 2022-01-19 06:44:42

# -*- coding: utf-8 -*-
import pandas as pd
import requests
from bs4 import BeautifulSoup

filename = 'ids.xlsx'
df = pd.read_excel(filename)
url = df.iloc[:, 0].tolist() # Преобразую нулевую колонку к списку

for urlibs in url:
    response = requests.get(urlibs)
    soup = BeautifulSoup(response.text, 'lxml')
    appname = soup.find('h1', class_='AHFaub').text
    print(appname)

Вариант быстрого парсинга (многопоточность)

# -*- coding: utf-8 -*-
import pandas as pd
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor

filename = 'ids.xlsx'
df = pd.read_excel(filename)
urls = df.iloc[:, 0].tolist()


def get_app_name(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'lxml')
    appname = soup.find('h1', class_='AHFaub').text
    print(appname)

# Число воркеров можно изменить на свое усмотрение
with ThreadPoolExecutor(max_workers=16) as executor: 
    executor.map(get_app_name, urls)

Answer 3 · 2022-01-18 22:59:19

Нельзя просто так по датафрейму пробежать циклом, надо достать значение и подавать их на вход в реквест.

Как распарсить несколько url из файла в формате «excel»?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт