Ответы, понравившиеся пользователю Сергей Ильин

Какие есть бесплатные альтернативы для smtp.google?

Sanes @Sanes

VPS за $5.
Сами не осилите, то еще разово $10-20

Ответ написан более трёх лет назад

Комментировать

Ребят, такой вопрос, я вообще не был в ITсфере, но уже много начитался про тестирование игр и ПО, очень хочу в эту сферу, как попасть?

Пума Тайланд @opium

Просто люблю качественно работать

Заколебали идите уже работать

Ответ написан более трёх лет назад

9 комментариев

Забрал статью с другого ресурса, могу ли опубликовать на Хабре?

Неисправимый Прагматик @pragmatik Куратор тега Хабр

Публиковать собственные статьи с других ресурсов не запрещено.
Но статья не должна нарушать правила Хабра.

Ответ написан более трёх лет назад

Комментировать

Как решить проблему с условием вывода и регулярными выражениями в Python?

Сергей П @trapwalker Куратор тега Python

Программист, энтузиаст

1)

Попытки убрать блок else, либо заменить "Нет вхождения" на pass или None - выдают ошибку.

a if q else b - это тернарный оператор. У него три аргумента (a, b, q) и результатом будет a или b в зависимости от истинности q.
pass там по синтаксису не подойдёт, поскольку это не значение, а ключевое слово.
Вам нужно вычислить выражение и результатом должно быть что-то что можно передать в print(). Если по else вы укажете пустую строку "", то print её напечатает. Не знаю устроит ли вас пустой абзац в консоли. Если нет, то смотрите решение, предложенное выше.

2) в предыдущем решении вы могли не заметить, но регекспы соединены через "|". Это сработает не для всех регекспов. Нужно быть осторожнее с такой конкатенацией. Вообще с регекспами надо поосторожнее. В большой силе большая ответственность.
Можно сделать цикл и поискать каждый регексп по отдельности. Так вам проще сохранить контроль над тем, что именно вы нашли и как на это реагировать.

Ответ написан более трёх лет назад

1 комментарий

Почему Не работает код?

Сергей Карбивничий @hottabxp Куратор тега Python

Сначала мы жили бедно, а потом нас обокрали..

Почему Не работает код?

- потому что на первом сайте внесли косметические изменения, добавили блоки и д.т.
Неделю назад на сайте был только один div с классом 'sppb-container-inner', а сегодня - уже 4. Но метод find находит только первый тег на странице, не зависимо от общего количества.

В качестве временного решения можно заменить метод find методом select_one:

# container = soup.find_all('div', class_='sppb-container-inner')
container = soup.select_one('div.sppb-row-container:nth-child(4) > div:nth-child(1)')

Ответ написан более трёх лет назад

Комментировать

Как получить данные с динамического сайта ( Python, BeautifulSoup, Selenium )?

Андрей Леонов @me-laman

У них какое-то API есть https://www.tradingview.com/rest-api-spec/ может поможет

Интересующие тебя данные они похоже сами с binance берут. У бинанса точно есть апи

Ответ написан более трёх лет назад

1 комментарий

Как получить данные с динамического сайта ( Python, BeautifulSoup, Selenium )?

Надим @zkrvndm

Архитектор решений

В консоли браузера во вкладке Сеть изучите POST/GET запросы отвечающие за подгрузку контента и повторите их уже на своем сервере.

Ответ написан более трёх лет назад

1 комментарий

Можно ли как-то запарсить элемент из таблицы?

Сергей Карбивничий @hottabxp Куратор тега Python

Сначала мы жили бедно, а потом нас обокрали..

Как получить table через BeatifulSoup?

Ответ написан более трёх лет назад

Как спарсить содержимое класса с bs4 в python?

Сергей Карбивничий @hottabxp Куратор тега Python

Сначала мы жили бедно, а потом нас обокрали..

Так как всего html не вижу, могу предложить следующее решение:

es = soup.find('div',id='enemy-stat-strength').text
ed = soup.find('div',id='enemy-stat-dexterity').text
ec = soup.find('div',id='enemy-stat-critical').text

print('strength:',es)
print('dexterity:',ed)
print('critical:',ec)

Ответ написан более трёх лет назад

1 комментарий

Парсинг на python. Как исправить работу пагинации?

Сергей Карбивничий @hottabxp Куратор тега Python

Сначала мы жили бедно, а потом нас обокрали..

Не ту ссылку используете. Нужно эту - "www.yoox.com/RU/shoponline?dept=clothingmen&gender=U&page={x}&season=X&clientabt=SmsMultiChannel_ON%2CSrRecommendations_ON%2CNewDelivery_ON%2CRecentlyViewed_ON%2CmyooxNew_ON"

В коде ниже страницы парсятся по очереди и сразу результат заносится в файл. В файл записываются только результаты со скидками!
Вот рабочий код, может кому пригодится:

import requests
from bs4 import BeautifulSoup
from lxml import html
import csv

url = 'https://www.yoox.com/ru/%D0%B4%D0%BB%D1%8F%20%D0%BC%D1%83%D0%B6%D1%87%D0%B8%D0%BD/%D0%BE%D0%B4%D0%B5%D0%B6%D0%B4%D0%B0/shoponline#/dept=clothingmen&gender=U&page=1&season=X'

headers = {'user-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:72.0) Gecko/20100101 Firefox/72.0',
			'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'
}

def getClothes(url,page_id):
	clothes = []
	respones = requests.get(url,headers=headers)
	soup = BeautifulSoup(respones.text,'lxml')

	mainContent = soup.find('div',id=f'srpage{page_id}')
	products = mainContent.find_all('div',class_='col-8-24')

	for product in products:

		brand = product.find('div',class_='itemContainer')['data-brand'] # Бренд
		cod10 = product.find('div',class_='itemContainer')['data-current-cod10'] # Для формирования ссылки yoox.com/ru/{cod10}/item
		category = product.find('div',class_='itemContainer')['data-category']	# Категория
		oldPrice = product.find('span',class_='oldprice text-linethrough text-light') # Старая цена (может не быть)
		newPrice = product.find('span',class_='newprice font-bold') # Новая цена (может не быть)
		
		if oldPrice is not None:
			# Данный код выполняется только, если на товар есть скидка
			sizes = product.find_all('div',class_='size text-light')
			str_sizes = ''

			for x in sizes:
				str_sizes += x.text.strip().replace('\n',';')
			clothes.append({'art':cod10,
							'brand':brand,
							'category':category,
							'url':f'https://yoox.com/ru/{cod10}/item',
							'oldPrice':oldPrice.text,
							'newPrice':newPrice.text,
							'sizes':str_sizes
							})
	return clothes


def getLastPage(url):
	respones = requests.get(url,headers=headers)
	soup = BeautifulSoup(respones.text,'lxml')
	id = soup.find_all('li', class_ = 'text-light')[2]
	
	return int(id.a['data-total-page']) + 1

def writeCsvHeader():
	with open('yoox_man_clothes.csv', 'a', newline='') as file:
		a_pen = csv.writer(file)
		a_pen.writerow(('Артикул', 'Ссылка', 'Размеры', 'Бренд', 'Категория', 'Старая цена', 'Новая цена'))	

def files_writer(clothes):
	with open('yoox_man_clothes.csv', 'a', newline='') as file:
		a_pen = csv.writer(file)
		for clothe in clothes:
			a_pen.writerow((clothe['art'], clothe['url'], clothe['sizes'], clothe['brand'], clothe['category'], clothe['oldPrice'], clothe['newPrice']))


if __name__ == '__main__':
	writeCsvHeader() # Запись заголовка в csv файл
	lastPage = getLastPage(url) # Получаем последнею страницу
	for x in range(1,lastPage): # Вместо 1 и lastPage можно указать диапазон страниц. Не начинайте парсить с нулевой страницы!
		print(f'Скачавается: {x} из {lastPage-1}')
		url = f'https://www.yoox.com/RU/shoponline?dept=clothingmen&gender=U&page={x}&season=X&clientabt=SmsMultiChannel_ON%2CSrRecommendations_ON%2CNewDelivery_ON%2CRecentlyViewed_ON%2CmyooxNew_ON'
		files_writer(getClothes(url,x)) # Парсим и одновременно заносим данные в csv

Ответ написан более трёх лет назад

3 комментария

Как избежать переадресации при парсинге сайта?

Александр @cashncarry

нагуглили

Если коротко — никак)
Сама суть редиректа в этом. Страница это ссылка на другую страницу
Но если вам нужно отлавливать переадресации, можно использовать "status_code"

r = requests.get(url)
if r.status_code in [301, 302]:
    #  переадресация

Если используете requests посмотрите этот пример

Ответ написан более трёх лет назад

8 комментариев

Как спарсить данные Python bs4?

Владимир Куц @fox_12 Куратор тега Python

Расставляю биты, управляю заряженными частицами

import json
from lxml import etree

str1 = '<ваша строка>'
root = etree.fromstring(str1)

data = json.loads(root.xpath('.//p')[0].text)
print(data[0]['productPrice']['current']['value'])

> 3290.0

вместо lxml . аналогичным образом xpath можно найти в bs4

Ответ написан более трёх лет назад

Комментировать

Нужна ли математика для data science?

Рональд Макдональд @Zoominger

System Integrator

Безусловно, нужна, без вариантов. Причём высшая, матанализ, дифф-е исчисление, вот это вот всё.

Ответ написан более трёх лет назад

Комментировать

Не получается установить библиотеки Python на Mac, как решить это проблему?

Вадим Шаталов @netpastor

Python developer

https://github.com/pyenv/pyenv + https://github.com/pyenv/pyenv-virtualenv

Ответ написан более трёх лет назад

Комментировать

Почему не могу запушить репозиторий в github?

d'Ivan @2ord

Белым по черному написана причина и предложение к действию.

Ответ написан более трёх лет назад

Комментировать

Какой математический метод или алгоритм выбрать для формирования числа из диапазона?

Сергей П @trapwalker

Программист, энтузиаст

То, что вы ищете называется хеш-функцией.

Возьмите первые (или любые) два байта из результата любой хеш-функции от этих данных.
Надеюсь вы понимаете, что мощность множества ваших адресных пар гораздо больше, чем 2**16. Это значит, что неизбежны коллизии.
Вот как получить это число можно однострочником на баше с помощью питона:

py '(lambda a, b: 256 * a + b)(*hashlib.md5(b"any bytes for hashing").digest()[:2])'

Или вот так в командной строке можно захешировать любой текст в два байта:

echo 'any text' | py '(lambda a, b: 256 * a + b)(*hashlib.md5(sys.stdin.read().encode("utf-8")).digest()[:2])'

Ответ написан более трёх лет назад

1 комментарий

Как парсить только ник?

Сергей Карбивничий @hottabxp Куратор тега Python

Сначала мы жили бедно, а потом нас обокрали..

longNick = na.text.strip()
nick = longNick[:longNick.find(',')]

Ответ написан более трёх лет назад

5 комментариев

Что не так с кодом от парсинга(в конце кода приклепляю ошибки)?

WStanley @WStanley

Back-end Developer

Кодировку указать просит

with open(path, 'w', newline='', encoding='utf-8') as file:

Ответ написан более трёх лет назад

2 комментария

Как разделить слитно написанные слова на отдельные?

Вадим Шаталов @netpastor

Python developer

https://stackoverflow.com/questions/38125281/split...

Ответ написан более трёх лет назад

Комментировать

Как сделать парсинг почты на python?

del4pp @del4pp

На пайтоне есть библиотека imaplib, которая позволяет получать письма с вашего ящика через IMAP и парсить их . Ниже мой код который я создавал для себя для такой же задачи.

def read(sender_of_interest=None):
    imap = imaplib.IMAP4_SSL("imap.gmail.com", 993)
    imap.login('Почта', 'пароль')
    imap.select('INBOX')
    if sender_of_interest:
        status, response = imap.uid('search', None, 'UNSEEN', 'FROM {0}'.format(sender_of_interest))
    else:
        status, response = imap.uid('search', None, 'UNSEEN')
    if status == 'OK':
        unread_msg_nums = response[0].split()
    else:
        unread_msg_nums = []
    data_list = []
    for e_id in unread_msg_nums:
        e_id = e_id.decode('utf-8')
        _, response = imap.uid('fetch', e_id, '(RFC822)')
        html = response[0][1].decode('utf-8')
        email_message = email.message_from_string(html)
        data_list.append(email_message.get_payload())
    for elem in data_list:
        clean_html(elem)

а дальше все просто:
if "ключевое слово" in массив_с_сообщениями[индекс сообщения]:
...то что надо сделать если ключевое слово найдено.

ну и в цыкле понятное дело

Ответ написан более трёх лет назад

Комментировать

Войдите на сайт