Как упростить запрос парсинга на Питоне?

Question

Katerina92_lomova @Katerina92_lomova

Как упростить запрос парсинга на Питоне?

Подскажите, можно ли как-то упростить код.
Ищу значения с сайта, и группирую их по типам вакансий.
Понятно, что написание символов может быть разное, где-то большая буква, где то маленькая, где то русская буква, где-то английская. То есть прописываю в условии Java или JAVA или java. Можно ли упростить записи if в таком случае?

<source lang="python">
num_of_page = 39
job_elements = []
job_elements1 = []

for i in range(num_of_page):
    URL ="https://career.habr.com/vacancies?divisions[]=backend&page=" + str(i+1)+ "&type=all"
    page = requests.get(URL)
    soup = bs(page.text, "html.parser")
    vacancies_names = soup.find_all('a', class_='vacancy-card__title-link')
    for name in vacancies_names:
        if 'C# ' in name.get_text() or 'С#' in name.get_text()or '#C' in name.get_text():
            job_elements.append(name.get_text())
         elif'Java' in name.get_text() or 'java' in name.get_text() or 'JAVA' in name.get_text():
            job_elements1.append(name.get_text())
</source>

Вопрос задан более трёх лет назад
176 просмотров

8 комментариев

Подписаться 1 Простой 8 комментариев

Рамис @ramzis

Учи основы
'Java'.lower() in ['java', 'джава']

Написано более трёх лет назад
Алан Гибизов @phaggi Куратор тега Python

Katerina92_lomova Не следует удалять размещённый вопрос, достаточно его отредактировать. Потому что вдруг на ваш первый вопрос уже написали большой ответ, нажали отправить - а вы его удалили и все труды отвечавшего насмарку.

Написано более трёх лет назад
Katerina92_lomova @Katerina92_lomova Автор вопроса

Рамис, это решит вопрос только с регистром верно ? А если вопрос в символе, а английская или русская ?

Написано более трёх лет назад
Katerina92_lomova @Katerina92_lomova Автор вопроса

Алан Гибизов, хорошо, спасибо)

Написано более трёх лет назад
Рамис @ramzis

Katerina92_lomova,
А если вопрос в символе, а английская или русская ?

Не понятно, опиши подробнее что тебе нужно

Написано более трёх лет назад
Katerina92_lomova @Katerina92_lomova Автор вопроса

Рамис, например запрос на С# - c может быть русской, а может быть английской. То есть зависит как на сайте изначально указали инфо

Написано более трёх лет назад
Рамис @ramzis

Katerina92_lomova, Поэтому ты можешь создать список со всеми вариантами, и проверять его ["c#", "с#", "C sharp", "с шарп"]

Написано более трёх лет назад
Katerina92_lomova @Katerina92_lomova Автор вопроса

Спасибо )

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

8 комментариев

Katerina92_lomova @Katerina92_lomova Автор вопроса

Подскажите а как можно написать ещё условие иначе, для того что бы отследить какие вакансии вообще не попадают под параметры.

Написано более трёх лет назад

Владимир Куц @fox_12 Куратор тега Python

other_vacancies = []  # остальные вакансии будут валиться сюда

for name in vacancies_names:
    for data in DATA:
        if any([x in name.get_text().lower() for x in data['pattern']]):
            data['result'].append(text)
            continue
        else:
            other_vacancies.append(text)

Написано более трёх лет назад

Katerina92_lomova @Katerina92_lomova Автор вопроса

Владимир Куц, так пробовала,но не работает.
Он добавляет все вакансии по 7 раз(

Написано более трёх лет назад
Владимир Куц @fox_12 Куратор тега Python

Katerina92_lomova, а вы continue точно не пропустили?

Написано более трёх лет назад

Katerina92_lomova @Katerina92_lomova Автор вопроса

Владимир Куц, вот полный код,мне кажется когда он возвращает False ( то есть например java - будет False для каждой группы кроме java.), то он дублирует одно и тоже значение много раз. Наверное нужно условие прописывать в квадратных скобка,но я пробовала разные вариации -не получается((

<source lang="python">
num_of_page = 40
other_vacancies = []  # остальные вакансии будут валиться сюда
collected_data = [
  {'pattern': ['#c', 'c#','c#','.net','core'], 'result': [] },
  {'pattern': ['ruby'], 'result': []},
  {'pattern': ['python'], 'result': []},
  {'pattern': ['php'], 'result': []},
  {'pattern': ['java','jаva','Java'], 'result': []},
  {'pattern': ['javascript','node'], 'result': []},
  {'pattern': ['golang','разработчик go','go-разработчик','go','go разработчик'], 'result': []},
  {'pattern': ['c++','с++'], 'result': []}

]

for i in range(num_of_page):
    URL ="https://career.habr.com/vacancies?divisions[]=backend&page=" + str(i+1)+ "&type=all"
    page = requests.get(URL)
    soup = bs(page.text, "html.parser")
    vacancies_names = soup.find_all('a', class_='vacancy-card__title-link')

    for name in vacancies_names:
        for data in collected_data:
            if any([x in name.get_text().lower() for x in data['pattern']]):
                data['result'].append(name.get_text())
                continue
            else:
                other_vacancies.append(name.get_text())
</source>

Написано более трёх лет назад

Владимир Куц @fox_12 Куратор тега Python

Katerina92_lomova, в вашем случае нужно так поправить код:

num_of_page = 40
other_vacancies = []  # остальные вакансии будут валиться сюда
collected_data = [
  {'pattern': ['#c', 'c#','c#','.net','core'], 'result': [] },
  {'pattern': ['ruby'], 'result': []},
  {'pattern': ['python'], 'result': []},
  {'pattern': ['php'], 'result': []},
  {'pattern': ['java','jаva','Java'], 'result': []},
  {'pattern': ['javascript','node'], 'result': []},
  {'pattern': ['golang','разработчик go','go-разработчик','go','go разработчик'], 'result': []},
  {'pattern': ['c++','с++'], 'result': []}

]

for i in range(num_of_page):
    URL ="https://career.habr.com/vacancies?divisions[]=backend&page=" + str(i+1)+ "&type=all"
    page = requests.get(URL)
    soup = bs(page.text, "html.parser")
    vacancies_names = soup.find_all('a', class_='vacancy-card__title-link')

    for name in vacancies_names:
        for data in collected_data:
            pattern_found = False
            if any([x in name.get_text().lower() for x in data['pattern']]):
                data['result'].append(name.get_text())
                pattern_found = True
                break
        if not pattern_found:
            other_vacancies.append(name.get_text())

Написано более трёх лет назад

Katerina92_lomova @Katerina92_lomova Автор вопроса

Владимир Куц, супер , спасибо огромное !!!

Написано более трёх лет назад
Katerina92_lomova @Katerina92_lomova Автор вопроса

Владимир Куц, подскажите ещё пож-ста если я в этом коде хочу добавить ещё,что бы добавлялись по вакансиям не только заголовки ,но и описание вакансии - тег описания.

('div', class_='vacancy-card__skills')
нужно как-то индекс смотреть ?

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 101 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 165 просмотров
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 373 просмотра
2

ответа
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 214 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 142 просмотра
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 140 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 253 просмотра
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 106 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 527 просмотров
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 253 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Учи основы
'Java'.lower() in ['java', 'джава']
Katerina92_lomova Не следует удалять размещённый вопрос, достаточно его отредактировать. Потому что вдруг на ваш первый вопрос уже написали большой ответ, нажали отправить - а вы его удалили и все труды отвечавшего насмарку.
Рамис, это решит вопрос только с регистром верно ? А если вопрос в символе, а английская или русская ?
Katerina92_lomova,
А если вопрос в символе, а английская или русская ?

Не понятно, опиши подробнее что тебе нужно
Рамис, например запрос на С# - c может быть русской, а может быть английской. То есть зависит как на сайте изначально указали инфо
Katerina92_lomova, Поэтому ты можешь создать список со всеми вариантами, и проверять его ["c#", "с#", "C sharp", "с шарп"]

Answer 1 · 2021-10-01 10:30:21

Как вариант:

collected_data = [
  {'pattern': ['#c', 'c#'], 'result': []},
  {'pattern': ['java'], 'result': []}
]

...

for name in vacancies_names:
    for data in DATA:
        if any([x in name.get_text().lower() for x in data['pattern']]):
            data['result'].append(text)
            continue

В конце collected_data обогатится спарсенными данными

Если еще нужно похожие отлавливать с опечатками - типа "iava" вместо "java" - то посмотрите про расстояние Левенштейна

Как упростить запрос парсинга на Питоне?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт