• Какой процент распознавания точности артикула штучного товара на витрине по его внешнему виду считается "хорошим" а какой - "отличным"?

    Роми, Ну хорошо давай подойдем с технической стороны вопроса. Скажу сразу разочарую я тут тебя.

    И так есть ДАННЫЕ мы их разбили на тренировочный сет и тестовом сет И на тренировочном и на тестовом сете мы можем иметь очень высокую точность. Что не означает что модель будет работать в продакшене, почему можно осуществить утечку тестового сета во время тюнинга гиперпараметров или во время кросс валидации. И вот у нас есть условная точность в 95 процентов а на деле модель в продакшене посыпется.
    По этому НАСТОЯЩИЙ ТЕСТОВЫЙ СЕТ заказчик вообще тебе не должен предоставлять. Соответственно, что значит 80% процентов или 90 процентов %. Без продакшена? Без бизнеса который сформировал задачу, друг мне надо 75% например, вот данные дели их там тестовый тренировочный, что хочешь делай настоящий тестовый сет у меня и тебе я его не дам вообще, сделаешь больше будет тебе премия.

    Почему так что такое Обучение модели (простенько поговорим нам тут больше и надо):
    Есть входные данные X в какой то форме скажем матрица например.
    Есть Цель назовем его y - что то распознать
    Есть функция f - которая определяет НАСТОЯЩИЕ отношения между X и y (мы ее не найдем)
    есть наша функция f_estimator - это наша модель которая сопоставит X и y.
    и есть ошибка error назовем ее E.
    Итого имеем y = f_estimate(X) + E
    E в свою очередь делится на две. редуцируемую ошибку и не редуцируемую, так вот цель машинного обучения это МИНИМИЗАЦИЯ редуцируемую ошибки, а к не редуцируемой оно не имеет никакого отношения, Она остается. От чего она зависит? Например какой подсет от данных ты получил от общего.
    Например, есть фотка витрины на которой лежат пачки йогуртов разных брендов (30-40).
    У тебя там ниже куча условий, откуда ты знаешь, что все они будут всегда выполняться на все сто, какого влияние освещения на фото, и т.д. и т.д.

    По этому как обещал разочарую. К ответу добавить особо нечего. Это бизнес задача приносит ли выгоду твоя модель или нет? И в какой интервале должна лежать точность чтобы это имело смысл вводить такую модель.
    Написано
  • Какой тут критерий подойдет для аб тестирования?

    frontjss, Вот здесь вычесление (одно из возможных) в примере используется приближенно нормальное распределение (что обычная практика для биноминальной выборки). https://www.itl.nist.gov/div898/handbook/prc/secti...

    Ну и я подразумеваю что ваш комментарий-вопрос НЕ в контексте вашего основного вопроса. потому что там этого делать не нужно. Почитайте там есть расчет минимального размера для определенных интервалов уверенности и выведены формулы.
    Написано
  • Почему pandas выдает предупреждение?

    Алан Гибизов, Все строки. То есть он присваивает, всем строкам колонки id. значения из переменной id. Вот этот фрейм subsession это подсет другого датафрейма и предупреждение говорит что в том другом датафреме могут быть изменения.
    Написано
  • При парсинге данных получаю пустой список?

    Kirill_Zet, Я понял сейчас попытаюсь, вам объяснить. (Просто перед тем что бы объяснять надо убедится что все работает). Если вы в БРАУЗЕРЕ переходите на страничку, вы можете правой кнопкой мыши щелкнуть и нажать inspect. У вас справа появится окошко, с кодом этой страницы. Так вот по умолчанию, там будет и javascript объекты. Которые данный парсер парсить не может. Вам нужно там же в этом окошке шелкнуть на кнопочку настроек и перейдя в настройки поставить галочку disable javascript. Затем обновить странице и вы увидите она стала выглядеть по другому. Затем закрыть настройки и теперь код в окошке это тот же самый код который получит ваш парсер. И в нем можно найти удобно элементы которые искать потом методом find_all уже из python скрипта. Так надо всегда делать, а то будешь видеть в окошке кода страницы одно а ПАРСЕР совсем другое. Что насчет ютуб видео, не знаю я его смотреть не собираюсь.
    Написано
  • Можно ли запросить в NASA данные?

    a pylunar не удовлетворяет вашим требованиям? Это python библиотека по месту и времени предоставляет информацию о луне. Не знаю можно ли извлечь то что вам интересно астрономия не мое направление, не я бы глянул что там имеется.
    Написано
  • Как авторизоваться на сайте?

    drqqv, Я же не могу за вас авторизоваться, мне то тесты недоступны что там и как. Авторизация с помощью request делается вот так один из примеров я привел.
    Написано
  • Как авторизоваться на сайте?

    drqqv, https://requests.readthedocs.io/en/latest/user/aut...
    вот от сюда пробуйте различные формы авторизации.
    Написано
  • Почему выводит положительные числа?

    1esman, Вы не тот файл запускаете это не результат исполнения кода который вы опубликовали.
    Написано
  • Как цифру в строке преобразовать в числовой формат?

    pitonessa,
    result = {key: float(value) for key, value in d.items()}

    затем
    timedelta(**result)
    Написано
  • Как цифру в строке преобразовать в числовой формат?

    pitonessa, В рамках вашего кода ваш вопрос не имеет смысла, поскольку вы формируете строку. строка может содержать в себе только один тип данных str. Если вам нужен float для операций например умножить на 100.
    {float(value) * 100} и все. Там он еще float, потом он будет отформатирован и станет частью строки.
    Написано
  • Какой тут критерий подойдет для аб тестирования?

    dmshar, Ну я бы не стал. У нас заведомо в контролем сете вероятность успеха 0.
    нет такого что вместе с ними есть НЕ отмененные (их нет) - это группа А (контрольная)
    А одно из основных правил для выполнения ztest для двух пропорций это
    np > 5 AND n(1-p) > 5
    В данном случае у нас нарушение от слова совсем n*p = 0 или (1-p) = 0 в зависимости от того что мы обозначим за успех и как следствие вероятность успеха.

    Фишер тест nonparametric тест, нам не нужно знать дистрибуцию популяции. И плюс нет вышеуказанного требования. Если бы не 0 в контрольном сете я бы сам использовал ztest он куда проще чем тест Фишера.
    Написано
  • Как обратиться к данным из csv таблицы?

    Роман Романов, будьте внимательны я специально привел read_csv() без этого аргумента, потому что он там не нужен. Обратите внимание на функцию read_csv(), в ее тело внесены изменения и в ее объявление тоже аргумента data там нет.
    Написано
  • Какой алгоритм лучше подходит для определения прибыльной сделки на бирже?

    Kind_Man, Например, большинство алгоритмов будут работать лучше если данные нормализованы, ваш X (только числовая ее часть) я сейчас о нем говорю. Что значит нормализовать. Каждая ваша переменная имеет mean=0 и std=1. Как этого добиться (x - x.mean()) / x.std(), для каждой переменной, можете использовать StandardScaler из sklearn. Все переменные которые относятся к разраду категории закодированы правильно. Например KNeighborsClassifier очень зависим от того нормализованы ли данные или нет. Все что я сейчас рассказал это мизер, Основная работа data science это приведение данных к виду на котором алгоритм будет работать хорошо, когда это сделано тогда и надо тюнить. Тюнить значит подкрутить настройки, на каких он будет работать оптимально это потом. Подготовка данных это огромная и основная тема. Я вам тут не изложу всего.
    Написано
  • Какой алгоритм лучше подходит для определения прибыльной сделки на бирже?

    Kind_Man, Смотрите, да оверфиттинг, что значит оверфиттинг - модель на все сто следует тренировочным данным, то есть найдена детерминистическая функция которая вход X сопоставляет с целью y. Как это понимать, нарисуйте на листе бумаге систему координат и нарисуйте несколько точек соедините их линий функция вашей линии это модель которой предстоит попросту экстраполировать будущие X которые она некогда не видела. Это безнадежно, Это упрощенный пример конечно, в вашем случае речь идет функции где графики мы рисовать не можем в силу того что нарисовать мы можем только три переменных, но принцип как понимать от этого не меняется.

    Цель же машинного обучения найти модель которая обобщит данные найдет в них некий паттерн, а не просто на все сто будет повторять тренировочный сет данных.

    Как исправить по кусочку кода я не подскажу и не ждите что кто то подскажет, это невозможно. Нужно видеть и работать с данными визуализировать их, смотреть метрики и много чего другого и только потом думать какой алгоритм и как применять.

    Я вам уже говорил, но вы не хотите слышать, сначала нужно понимать данные и привести их правильному виду потом алгоритмы. Вы сфокусировались на тюнинге и ждете результатов.

    И наконец подучите python
    list = [n for n in range(1, 31)]
    list2 = [n for n in range(1, 31)]
    вот это говорит о том что с python вы едва знакомы. Как результат ищите кусочки кода копируете их пытаетесь так учится. Вы попросту теряете время. Учитесь нормально, не забегая вперед. Иначе не будет прогресса а одни иллюзии.
    Написано
  • Как обратиться к данным из csv таблицы?

    Роман Романов,
    def read_csv():
        with open('urls.txt', encoding='utf-8') as file:
            reader = csv.reader(file)  #
            data = list(reader)
            flat_list = [item for sublist in data for item in sublist]
        return flat_list
    
    
    def url():  # парсинг карточек товаров из файла url.txt
        flat_list = read_csv()
        picture_links = []
        for url in flat_list:
            time.sleep(2)
            html = get_html(url)
            picture_links.append(get_page_data(html))
        return picture_links
    result = url()

    Ну и ваша функция get_page_data опять ничего не возвращает испрвьте это.
    А вообще судя по коду вам совсем рано, зря тратите свое время вы не научитесь так нечему, пока изучайте основы языка (как работает функция, простейшие объекты и т.д) .
    Написано
  • Как обратиться к данным из csv таблицы?

    Роман Романов, И да добавьте паузы между вызовами
    import time
    picture_links = []
    for url in flat_list:
        time.sleep(2)
        html = get_html(url)
        picture_links.append(get_data(html))

    Что бы не отправлять запрос на сервер слишком быстро каждый раз, он будет пару секунд брать паузу перед очередным запросом на сервер.
    Написано
  • Как обратиться к данным из csv таблицы?

    Роман Романов, Ну тогда собственно создаем пустой список куда будем складывать ссылки на картинки, проходимся по нашему СПИСКУ из ФАЙЛА и записываем результаты в пустой список (потом можно отдельно в файл).
    picture_links = []
    for url in flat_list:
        html = get_html(url)
        picture_links.append(get_data(html))

    Все в вашем picture_links должны все ссылки на картинки.
    Написано
  • Как обратиться к данным из csv таблицы?

    Роман Романов, Я кусочек кода привел, он сработает? для одной ссылки естественно.
    Написано