Python invalid literal for int() with base 10: ''?

Question

emeryee @emeryee

Python invalid literal for int() with base 10: ''?

import requests
from bs4 import BeautifulSoup
from time import sleep


print('Telegram Parser v1.4\nCreator: vk.com/lucifer\nLast update: 07.03.2021\n')
print('\nЗапускаю бота...\n')

class code():
    def __init__(self):
        with open('cookie.txt',mode='r') as file2:
            cookie = file2.read()
        self.headers = {
            "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:85.0) Gecko/20100101 Firefox/85.0",
            "Cookie":cookie
        }
        self.session = requests.session()
        self.page_count = int(self.count_page())
        self.parse_page()
    def zapis_in_file(self,telegram):
        with open('list.txt',mode='a') as file:
            file.write(f'{telegram}\n')
    def parse_tg_from_profile(self,massiv):
        for b in massiv:
            try:
                info2 = self.session.get(b,headers=self.headers).text
                main_2 = BeautifulSoup(info2,'lxml')
                simp = main_2.find_all('div',class_='count')[1].get_text()
                if int(simp) >= 180:
                    telega = main_2.find_all('a',rel="nofollow noopener")
                    if str(telega) == '[]':
                        pass
                    else:
                        if 'tg:' in str(telega[0]): 
                            self.zapis_in_file(telega[0]['href'].split('=')[1])
                            print('{} | {} симпатий | TG: {}'.format(b,simp,telega[0]['href'].split('=')[1]))
                        elif len(telega) == 2:
                            if 'tg:' in str(telega[1]):
                                self.zapis_in_file(telega[1]['href'].split('=')[1])
                                print('{} | @{}'.format(b,telega[1]['href'].split('=')[1]))
                sleep(0.8)
            except:
                sleep(15)
    def parse_page(self):
        for stranitsa in range(1,self.page_count+1):
            try:
                info = self.session.get(f'https://lolz.guru/online/?type=registered&page={stranitsa}',headers=self.headers)
                main_2 = BeautifulSoup(info.text,'lxml')
                links_to_profile = main_2.find_all('a',class_='username StatusTooltip')
                links_lolz = []
                for link in links_to_profile:
                    links_lolz.append('https://lolz.guru/{}'.format(link['href']))
                self.parse_tg_from_profile(links_lolz)
            except:
                sleep(15)
        
    def count_page(self):
        page_count = self.session.get('https://lolz.guru/online/?type=registered&page=1',headers=self.headers)
        main_text = BeautifulSoup(page_count.text,'лксмл')
        result = main_text.find_all('a',_class="")[81].get_text()
        print('Получено {} страниц. Начинаю парсинг:'.format(result))
        return result
        
code()

Выдаёт ошибки https://imgur.com/kb5qyGB
Пожалуйста помогите.
Я уже смотрел везде, даже на StackOwerflowm, но не смог найти решение(

Вопрос задан более трёх лет назад
267 просмотров

11 комментариев

Подписаться 1 Простой 11 комментариев

Сергей Карбивничий @hottabxp Куратор тега Python

Поместите код в тег code.

Написано более трёх лет назад
emeryee @emeryee Автор вопроса

Сергей Карбивничий, это как???

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

emeryee,

Написано более трёх лет назад
emeryee @emeryee Автор вопроса

Сергей Карбивничий, спасибо что прикрепили видео, сейчас

Написано более трёх лет назад

emeryee @emeryee Автор вопроса

import requests
from bs4 import BeautifulSoup
from time import sleep


print('Telegram Parser v1.4\nCreator: vk.com/lucifer\nLast update: 07.03.2021\n')
print('\nЗапускаю бота...\n')

class code():
    def __init__(self):
        with open('cookie.txt',mode='r') as file2:
            cookie = file2.read()
        self.headers = {
            "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:85.0) Gecko/20100101 Firefox/85.0",
            "Cookie":cookie
        }
        self.session = requests.session()
        self.page_count = int(self.count_page())
        self.parse_page()
    def zapis_in_file(self,telegram):
        with open('list.txt',mode='a') as file:
            file.write(f'{telegram}\n')
    def parse_tg_from_profile(self,massiv):
        for b in massiv:
            try:
                info2 = self.session.get(b,headers=self.headers).text
                main_2 = BeautifulSoup(info2,'lxml')
                simp = main_2.find_all('div',class_='count')[1].get_text()
                if int(simp) >= 180:
                    telega = main_2.find_all('a',rel="nofollow noopener")
                    if str(telega) == '[]':
                        pass
                    else:
                        if 'tg:' in str(telega[0]): 
                            self.zapis_in_file(telega[0]['href'].split('=')[1])
                            print('{} | {} симпатий | TG: {}'.format(b,simp,telega[0]['href'].split('=')[1]))
                        elif len(telega) == 2:
                            if 'tg:' in str(telega[1]):
                                self.zapis_in_file(telega[1]['href'].split('=')[1])
                                print('{} | @{}'.format(b,telega[1]['href'].split('=')[1]))
                sleep(0.8)
            except:
                sleep(15)
    def parse_page(self):
        for stranitsa in range(1,self.page_count+1):
            try:
                info = self.session.get(f'https://lolz.guru/online/?type=registered&page={stranitsa}',headers=self.headers)
                main_2 = BeautifulSoup(info.text,'lxml')
                links_to_profile = main_2.find_all('a',class_='username StatusTooltip')
                links_lolz = []
                for link in links_to_profile:
                    links_lolz.append('https://lolz.guru/{}'.format(link['href']))
                self.parse_tg_from_profile(links_lolz)
            except:
                sleep(15)
        
    def count_page(self):
        page_count = self.session.get('https://lolz.guru/online/?type=registered&page=1',headers=self.headers)
        main_text = BeautifulSoup(page_count.text,'лксмл')
        result = main_text.find_all('a',_class="")[81].get_text()
        print('Получено {} страниц. Начинаю парсинг:'.format(result))
        return result
        
code()

Написано более трёх лет назад

Сергей Горностаев @sergey-gornostaev Куратор тега Python

Сергей Карбивничий, а теперь видео про то, как редактировать вопросы :)

Написано более трёх лет назад
emeryee @emeryee Автор вопроса

Сергей Горностаев, xDDD

Написано более трёх лет назад
emeryee @emeryee Автор вопроса

Сергей Горностаев, отредактировал

Написано более трёх лет назад
Сергей Карбивничий @hottabxp Куратор тега Python

Сергей Горностаев, Нужно как-нибудь админам предложить, чтобы запилили такую штуку: когда пользователь с рейтингом меньше 10 задает вопрос - то ему сначала показывается окно, в котором красными (например) буквами было указано, что размещать код, а также вывод нужно в специальный тег, также запрещено размещать код и ошибки в виде картинок, и т.д...

Написано более трёх лет назад
emeryee @emeryee Автор вопроса

Сергей Карбивничий, да да,да да.

Написано более трёх лет назад
emeryee @emeryee Автор вопроса

Сергей Карбивничий, а что делать,таки не подскажешь().

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

8 комментариев

emeryee @emeryee Автор вопроса

Огромное спасибо за ответ, но проблема, когда я пытаюсь вставить что ты написал у меня не получается.
Проблема в том что я просто немного не понимаю что куда вставить.
Может прозвучит тупо но не мог бы ты просто вставить и отправить мне, я могу накинуть тебе 50 рублей на киви если надо.
P.S. Огромное спасибо https://disk.yandex.by/d/bYAxi4p4FZyFnA

Написано более трёх лет назад
Alexa2007 @Alexa2007

emeryee, Хахаха! Уморил :) Лучше перезалей код, а то архив не распаковывается.

Написано более трёх лет назад
emeryee @emeryee Автор вопроса

Alexa2007, https://disk.yandex.by/d/qO38qHxXcbXFaw

Написано более трёх лет назад

Alexa2007 @Alexa2007

emeryee, Вот код:

import requests
from bs4 import BeautifulSoup
from time import sleep



print('Telegram Parser v1.4\nCreator: vk.com/lucifer\nLast update: 07.03.2021\n')
print('\nЗапускаю бота...\n')

cc={}


class code():
    def __init__(self):
        with open('cookies.txt',mode='r') as file2:
            cookie = file2.read().splitlines()
            for _ in cookie:
                x =  _.split(':')
                cc[x[0]]=x[1]



        self.headers = {
            "User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36",
        }
        self.cookies = cc
        self.session = requests.session()

    def zapis_in_file(self,telegram):
        with open('list.txt',mode='a') as file:
            file.write(f'{telegram}\n')
    def parse_tg_from_profile(self,massiv):
        for b in massiv:
            print(f'Url is {b}')
            try:
                info2 = self.session.get(b,headers=self.headers,cookies=self.cookie).text
                main_2 = BeautifulSoup(info2,'lxml')
                simp = main_2.find_all('div',class_='count')[1].get_text()
                if int(simp) >= 180:
                    telega = main_2.find_all('a',rel="nofollow noopener")
                    if str(telega) == '[]':
                        pass
                    else:
                        if 'tg:' in str(telega[0]): 
                            self.zapis_in_file(telega[0]['href'].split('=')[1])
                            print('{} | {} симпатий | TG: {}'.format(b,simp,telega[0]['href'].split('=')[1]))
                        elif len(telega) == 2:
                            if 'tg:' in str(telega[1]):
                                self.zapis_in_file(telega[1]['href'].split('=')[1])
                                print('{} | @{}'.format(b,telega[1]['href'].split('=')[1]))
                sleep(0.8)
            except:
                print('was error')
                sleep(15)
    def parse_page(self, uri):
        try:
            info = self.session.get(uri,headers=self.headers, cookies=self.cookies)
            print(info.text)
            main_2 = BeautifulSoup(info.text,'lxml')
            links_to_profile = main_2.find_all('a',class_='username StatusTooltip')
            links_lolz = []
            for link in links_to_profile:
                links_lolz.append('https://lolz.guru/{}'.format(link['href']))
            self.parse_tg_from_profile(links_lolz)
        except:
            print('was error')
            sleep(15)
        

        
ur = 'https://lolz.guru/online/?type=registered&page='

from multiprocessing.dummy import Pool as ThreadPool 
c = [ur+str(_) for _ in range(1,101)]
myC=code()

pool = ThreadPool(20) # Кол-во потоков - по числу ядер, но можно забить и больше, просто работать будет по кол-ву ядер
results = pool.map(myC.parse_page,c)
pool.close() 
pool.join()

Вот файл куков, введи сюда свои значения СВЕЖИЕ!!!
На твоих не поехало

G_ENABLED_IDPS:google
_ga:СЮДА ПИШИ СВОИ ЗНАЧЕНИЯ
_ga_J7RS527GFK:
_ym_d:
_ym_isad:
_ym_uid:
df_id:
xf_session:

Написано более трёх лет назад

emeryee @emeryee Автор вопроса

Alexa2007, спасибо большое

Написано более трёх лет назад
emeryee @emeryee Автор вопроса

Alexa2007, ты просто лучший

Написано более трёх лет назад
emeryee @emeryee Автор вопроса

Alexa2007, а если поменял куки и начало писать https://imgur.com/4SlAUJD

Написано более трёх лет назад
Alexa2007 @Alexa2007

emeryee, работай на старых...Вот тут мне уже нечем помочь... я хз что ты там парсишь.. У тебя выпадает ошибка... и думаю парсинг по сути не происходит... что?как?без понятия.. Отлаживай код, принтуй супы.. Я не знаю что не работает потому что незнаю как оно должно работать..
Рад был помочь!

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

25 комментариев

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 75 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 312 просмотров
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 219 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 349 просмотров
2

ответа
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 257 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 165 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 139 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 265 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 150 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 145 просмотров
3

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Сергей Карбивничий, спасибо что прикрепили видео, сейчас
Сергей Карбивничий, а теперь видео про то, как редактировать вопросы :)
Сергей Горностаев, отредактировал
Сергей Горностаев, Нужно как-нибудь админам предложить, чтобы запилили такую штуку: когда пользователь с рейтингом меньше 10 задает вопрос - то ему сначала показывается окно, в котором красными (например) буквами было указано, что размещать код, а также вывод нужно в специальный тег, также запрещено размещать код и ошибки в виде картинок, и т.д...
Сергей Карбивничий, а что делать,таки не подскажешь().

Answer 1 · 2021-03-31 21:44:47

отключил куки
изменил "User-Agent":"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"
В этом методе получил результат

def count_page(self):
        page_count = self.session.get('https://lolz.guru/online/?type=registered&page=1',headers=self.headers)
        print(page_count.text)

<!doctype html><html><head><script src="/process-qv9ypsgmv9.js"></script></head><body><script>window.onload=function(){process();}</script><noscript><p>Please enable JavaScript and Cookies in your browser.</p></noscript></body></html>

Пришлось вручную выколупывать куки из хрома, но вроде теперь работает, но один вопрос, какой класс ты ищешь? Вроде ты пытаешься найти класс в котором написано максимальное кол-во страниц и спарсить их все по очереди.

Короче твой код работает, просто ты берешь не тот <a>, пробовал вручную словить, но так и не удалось. По быстрому будет селениумом. А для парсинга уже класс используй.
А если я тебе предложу их просто спарсить в многопотоке.

import requests
from multiprocessing.dummy import Pool as ThreadPool 

url = 'https://lolz.guru/online/?type=registered&page='
# Не забудь хедеры и куки прикрутить, а то точно работать не будет
urls = [url+str(i) for i in range(1,8)]# С первой по максимальную страницу
print(urls)

def get_url(url):
    r = requests.get(url)
    print(r.text)

pool = ThreadPool(20) # Кол-во потоков - по числу ядер, но можно забить и больше, просто работать будет по кол-ву ядер
results = pool.map(get_url, urls)
pool.close() 
pool.join()

Answer 2 · 2021-03-31 16:40:50

1) Как вариант, лучше писать код на родном для python языке. Работать будет лучше, если в строке:
main_text = BeautifulSoup(page_count.text,'лксмл')
лксмл заменить на lxml
2)

result = main_text.find_all('a',_class="")[81].get_text()

у меня здесь IndexError, скорее всего из-за того, что файл cookie.txt пустой. Это не очень хороший метод поиска ссылок.

Python invalid literal for int() with base 10: ''?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт