Как обратиться к данным из csv таблицы?

Question

Роман Романов @avelecter

Python

Как обратиться к данным из csv таблицы?

Привет, подскажите пожалуйста
1) Парсер заходит в каталог сайта, выгружает все урлы карточек товара, записывает в csv файл. В таблице просто список урлов - с этим я справился
2) Затем парсер должен эти урлы подставлять по очереди в функцию def url(): - не понимаю, как обратиться к данным из csv таблицы, то есть как сделать так, чтобы каждый урл из таблицы поставлялся туда (надеюсь понятно объяснил)
Подскажите пожалуйста

import requests
from bs4 import BeautifulSoup
import csv

def get_html(url):
    r = requests.get(url)
    if r.ok:
           return r.text
    print(r.status_code)

def write_csv(data):
    with open('urls.csv', 'a', newline='') as f:
        writer = csv.writer(f)

        writer.writerow([data['url']])

def read_csv(data):
    with open('urls.csv', encoding='utf-8') as file:
        reader = csv.reader(file)
        data = list(reader)
        return data


def get_data(html): #получаем данные со страницы
    soup = BeautifulSoup(html, 'lxml') #
    items = soup.find_all('div', class_='catalog-item')
    for item in items:
        try:
            url = 'https://a-dubrava.ru' + item.find('a', class_='catalog-item__link').get('href')
        except:
            url = ''

        data = {'url': url}
        write_csv(data)

# вычленить со страниц ссылки на фотки


def main():
    pattern = 'https://a-dubrava.ru/katalog/khvoynye-rasteniya-s/?PAGEN_1={}'

    for i in range(0, 9): # создаём рейндж перебор с 0 до 9
        url = pattern.format(str(i)) # подставляем цифру в урл в {}
        get_data(get_html(url))

def url():
    url = 'https://a-dubrava.ru/****' # сюда надо подставить урлы по одному из файла csv
    get_page_data(get_html(url))



if __name__ == '__main__':
    main()

Вопрос задан более двух лет назад
265 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Решения вопроса 1

18 комментариев

Роман Романов @avelecter Автор вопроса
Спасибо, процесс пошёл с вашими подсказками, csv поменял на txt, щас записывает в текстовый файл
Всё сделал, добрался до передачи ссылок в список
Как передать в цикл по одной ссылке, чет не понимаю

for item in flat_list: ...
Написано более двух лет назад
Максим Припадчев @Maksim_64

Роман Романов, У вас есть функция которая спарсит необходимую вам информация с одной из этих ссылок?

Написано более двух лет назад

Роман Романов @avelecter Автор вопроса

Максим Припадчев, да

Так как я нубас, у меня любая функция выводит принт, чтобы проверить работает она вообще или нет. Затем если работает, я принт убираю и ее доделываю как надо

import requests
from bs4 import BeautifulSoup

def get_html(url): 
    r = requests.get(url) 
    if r.ok:
           return r.text
    print(r.status_code)


def get_data(html): #получаем данные со страницы,
    soup = BeautifulSoup(html, 'lxml') #
    imgs = soup.find('div', class_='item__left').find_all('div', itemprop="image")
    try:
        for img in imgs:
            pic1 = 'https://a-dubrava.ru' + imgs[0].find('link', itemprop="contentUrl").get('src')
        print(pic1)

    except:
        img = ''




def main():
    url = 'https://a-dubrava.ru/katalog/khvoynye-rasteniya-s/el-s/el-kolyuchaya-s/el-kolyuchaya-bialobok/'
    get_data(get_html(url))

if __name__ == '__main__':
    main()

Написано более двух лет назад

Максим Припадчев @Maksim_64

Роман Романов, так на сколько я понял это другая функция с таким же названием как в вопросу (те что в вопросе как раз таки создавали эти ссылки). Это как я понимаю должна парсить инфу с сылок которые в файле. Так?

Написано более двух лет назад
Роман Романов @avelecter Автор вопроса

Максим Припадчев, да, это функция, которая парсит картинки со страничек, которые парсятся в вопросе

Написано более двух лет назад
Роман Романов @avelecter Автор вопроса

Максим Припадчев, название такое же, верно. Я просто их параллельно писал в разных файлах, основываясь на уроках с ютюба, а так их называют вот так. Переименую конечно, когда совмещать буду

Написано более двух лет назад
Максим Припадчев @Maksim_64

Роман Романов, Отлично, последний вопрос перед тем как мы сдвинемся с мертвой точки. А что возвращает get_data в том кусочке кода что вы представили здесь в комментарии она не возвращает ничего. Наверно вы не полностью код представили это и необязательно, сколько значений она возвращает за один вызов?

Написано более двух лет назад
Роман Романов @avelecter Автор вопроса

Максим Припадчев, get_data возвращает непосредственно ссылку на картинку, которая парсится со страницы
Просто в указанном коде (в комментарии) там выведено на печать print(pic1) , это я так проверил что функция работает и ссылка на картинку появляется
В будущем когда весь парсер воедино буду совмещать, функция должна возвращать эту ссылку на картинку, а не печатать её

Написано более двух лет назад
Максим Припадчев @Maksim_64
Роман Романов, Я даже уточную что вернет. Что будет в data?

url = flat_list[0] html = get_html(url) data = get_data(html)
Написано более двух лет назад
Максим Припадчев @Maksim_64

Роман Романов, Я кусочек кода привел, он сработает? для одной ссылки естественно.

Написано более двух лет назад
Роман Романов @avelecter Автор вопроса

Максим Припадчев, если я правильно понял:

url = flat_list[0] - тут берётся 0 элемент списка и передаётся в урл
html = get_html(url) - тут из урла берётся код хтмл
data = get_data(html) - тут выполняется функция парсинга из этого кода

да сработает

Написано более двух лет назад
Максим Припадчев @Maksim_64
Роман Романов, Ну тогда собственно создаем пустой список куда будем складывать ссылки на картинки, проходимся по нашему СПИСКУ из ФАЙЛА и записываем результаты в пустой список (потом можно отдельно в файл).

picture_links = [] for url in flat_list: html = get_html(url) picture_links.append(get_data(html))

Все в вашем picture_links должны все ссылки на картинки.
Написано более двух лет назад
Максим Припадчев @Maksim_64
Роман Романов, И да добавьте паузы между вызовами

import time picture_links = [] for url in flat_list: time.sleep(2) html = get_html(url) picture_links.append(get_data(html))

Что бы не отправлять запрос на сервер слишком быстро каждый раз, он будет пару секунд брать паузу перед очередным запросом на сервер.
Написано более двух лет назад
Роман Романов @avelecter Автор вопроса

Максим Припадчев, спасибо за помощь, буду пытаться совмещать все коды в один, напишу если не получится что-то

Написано более двух лет назад

Роман Романов @avelecter Автор вопроса

Максим Припадчев,
Я короч не понимаю, как правильно вставить вашу конструкцию в функцию def url()
Соединил 2 скрипта (парсинг страниц и парсинг картинок с этих страниц), переименовал функции чтобы не было повторений в названиях, откомментировал строчки чтобы не запутаться

Не прошу исправлять, прошу подсказать где накосячил в синтаксисе

import requests
from bs4 import BeautifulSoup
import csv
import time


def get_html(url):
    r = requests.get(url)
    if r.ok:
           return r.text
    print(r.status_code)

def write_csv(data):  # записываем результаты парсинга (ссылки на карточки товара) в файл urls.txt
    with open('urls.txt', 'a', newline='') as f:
        writer = csv.writer(f)
        writer.writerow([data['url']])

def read_csv(data): # создаем файл urls.txt
    with open('urls.txt', encoding='utf-8') as file:
        reader = csv.reader(file)  #
        data = list(reader)
        flat_list = [item for sublist in data for item in sublist]


def get_data(html): #получаем ссылки на карточки товара
    soup = BeautifulSoup(html, 'lxml') #
    items = soup.find_all('div', class_='catalog-item')
    for item in items:
        try:
            url = 'https://a-dubrava.ru' + item.find('a', class_='catalog-item__link').get('href')
        except:
            url = ''

        data = {'url': url}
        write_csv(data)

def get_page_data(html): #получаем ссылки на картинки с карточки товара
    soup = BeautifulSoup(html, 'lxml') #
    imgs = soup.find('div', class_='item__left').find_all('div', itemprop="image")
    try:
        for img in imgs:
            pic1 = 'https://a-dubrava.ru' + imgs[0].find('link', itemprop="contentUrl").get('src')
            print(pic1)
    except:
        img = ''

def main(): # парсинг страниц пагинации
    pattern = 'https://a-dubrava.ru/katalog/khvoynye-rasteniya-s/?PAGEN_1={}'
    for i in range(0, 9): # создаём рейндж перебор с 0 до 9
        url = pattern.format(str(i)) # подставляем цифру в урл в {}
        get_data(get_html(url))

def url():  # парсинг карточек товаров из файла url.txt
    url = flat_list[0]  # подставляем по одному урлу в переменную url
    picture_links = []
    for url in flat_list:
        time.sleep(2)
        html = get_html(url)
        picture_links.append(get_page_data(html))


if __name__ == '__main__':
    main()

Написано более двух лет назад

Максим Припадчев @Maksim_64
Роман Романов,

def read_csv(): with open('urls.txt', encoding='utf-8') as file: reader = csv.reader(file) # data = list(reader) flat_list = [item for sublist in data for item in sublist] return flat_list def url(): # парсинг карточек товаров из файла url.txt flat_list = read_csv() picture_links = [] for url in flat_list: time.sleep(2) html = get_html(url) picture_links.append(get_page_data(html)) return picture_links result = url()

Ну и ваша функция get_page_data опять ничего не возвращает испрвьте это.
А вообще судя по коду вам совсем рано, зря тратите свое время вы не научитесь так нечему, пока изучайте основы языка (как работает функция, простейшие объекты и т.д) .
Написано более двух лет назад
Роман Романов @avelecter Автор вопроса
Максим Припадчев,
Ругается на аргумент data
Если указываешь его - ошибка not defined
Что указать в аргументе?

File "C:\Users\Ave\PycharmProjects\parser\main10.py", line 54, in url flat_list = read_csv() TypeError: read_csv() missing 1 required positional argument: 'data'
Написано более двух лет назад
Максим Припадчев @Maksim_64

Роман Романов, будьте внимательны я специально привел read_csv() без этого аргумента, потому что он там не нужен. Обратите внимание на функцию read_csv(), в ее тело внесены изменения и в ее объявление тоже аргумента data там нет.

Написано более двух лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- вчера
- 166 просмотров
1

ответ
Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 18 окт.
- 175 просмотров
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 126 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 516 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 109 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 531 просмотр
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 143 просмотра
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 122 просмотра
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 553 просмотра
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

csv.reader() уже возвращается итерируемый объект. Нет нужды преобразовывать его в list. Как работать с csv в питоне, можете почитать здесь - https://www.geeksforgeeks.org/reading-csv-files-in.... Или более развернуто - https://realpython.com/python-csv/

И, я так понимаю, вы в просто записываете адреса, без колонок. Тогда зачем вам вообще csv. Пользуйтесь обычным txt.
вы свой csv видели там рабочие ссылки то что вы хотите туда добавить там уже есть.

сюда надо подставить урлы по одному из файла csv
в файле каждая ссылка вот так же начинается, добавите абсурд получится.

Answer 1 · 2023-02-15 14:21:09

Первое я почти все оставлю как у вас что бы вашу логику не нарушать, внесу небольшие изменения.

def read_csv(filename):   #зачем у вас в оригинале параметр data если вы его не используете логичнее передавать имя файла.
    with open(filename, encoding='utf-8') as file:
        reader = csv.reader(file)
        data = list(reader)
        return data

далее используем вашу функцию для чтения получаем вложенный список в ответ, а нам он не нужен вложенный нам обычный нужен по этому распрямляем его.

data = read_csv('urls.csv')
flat_list = [item for sublist in data for item in sublist]

далее по все видимости вы собираетесь использовать эти ссылки для парсинга
пишете функцию которая будет парсить проходитесь циклом по списку flat_list и передаете в функцию по одной ссылке и все. Ваша функция будет принимать параметр url, затем делать request, затем beatifulsoup будет парситьи отдавать результат. Сделайте функцию которая делает это все для одного url, потом циклом по списку внутри цикла вызывайте функцию с параметром url.

А теперь общие соображения.
Зачем csv? когда читаешь csv он возвращает список под каждую строку, с обычного txt, мы бы этого избежали, я бы использовал бы вообще для записи json. Где ключом было бы название товара, а значением ссылка. Потому что если что не будет работать, то будет известно какой товар не удается спарсить.

Нужно создавать log file и писать туда что отдал сервер при запросе и туда же писать различные исключения а то потом ума не дашь где ошибка.

В коде много лишнего, параметр data в обоих случаях нужно заменить на filename. И много других погрешностей.

Как обратиться к данным из csv таблицы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт