soup.find('h1', class_='section_hero__title').text
Ну это не точно у меня то html вашего нету, что бы я мог точно указать. (df == '').sum()
columns = df1.columns
df2 = df2.reset_index(drop=True).T.reset_index().T
df2.columns = columns
df2.reset_index(drop=True)
columns = df1.columns
df2 = df2.reset_index(drop=True).T.reset_index(drop=True).T
df2.columns= columns
frames = []
for i in range(1000):
создаю frame, манипулирую
frames.append(df)
result = pd.concat(frames)
Например, есть фотка витрины на которой лежат пачки йогуртов разных брендов (30-40).У тебя там ниже куча условий, откуда ты знаешь, что все они будут всегда выполняться на все сто, какого влияние освещения на фото, и т.д. и т.д.
Ну вот видите те числовые данные которые у вас есть в том виде в котором они есть в одной колонке тысячи в другой меньше единицы, абсолютно без разницы в какой алгоритм пихать, он оставит предикторами большие а маленькие вообще не будут иметь никакого значения, а не факт что маленькие данные нам бесполезны. По этому вам нужно применить ну хотя бы StandardScalar для начала как я уже сказал, или MinMaxScalar.
Нормально ли применять для разных колонок разные трансформаторы ДА НОРМАЛЬНО (ваш y только не трогайте (что вы классифицировать собрались) Его тоже можно трансформировать но это отдельная тема для разговора пока туда не лезьте). Вы свободный художник здесь. И главное выполнить по технике правильно перечитайте что я говорил про transform и fit_transform. Наверное даже вам необходимо глянуть главу 10 https://scikit-learn.org/stable/common_pitfalls.html. Там рассмотрены ошибки частые, она небольшая и убережет от того что будете применять трансформации а они в силу того что вы не опытен работать не будут. Обязательно ее прочтите запустите и пошагово разберите простейшие примеры от туда они маленькие и понятные. А потом возвращайтесь к большой и трудной 6 главе.
Ну что бы обязаны такого прям нет. Исключения могут быть. Но лучше да приводить. Обратите внимание
StandardScaler - scaler шкала (как вы выразились диапозон) что он сделает для каждой колонки он посчитает mean и std. И затем сделает (x - mean(колонки в которой находится x)) / std (стандартное этой колонки). То есть каждое числовое значение становится количеством стандартных отклонений от среднего по этой колонке. То есть у нас становится одна единица измерения для всех числовых данных. И все они придут в среднем к одной шкале.
MinMaxScaler переведет все данные в формат от 0 до 1. по умолчанию этот диапозон как вы его называете можно поменять.
Более популярный StandardScaler примените его правильно и посмотрите на результаты. В sklearn тьма примеров с ним для некоторых алгоритмов он и вовсе обязателен.
По этому я вам и говорю наберитесь терпения и выучите объект Pypeline потому что у нас два трансформера один для категориальных а другой для числовых данных. И это только начало. Будет тяжело не запутаться в них и нигде не ошибиться.