Задать вопрос
  • Как заменить только отличные значения с помощью pandas?

    А замена везде одинаковая? Или значений на которые заменяется несколько и они зависят от дополнительных условий?
  • Почему переменная изменяет значение?

    Ася, Если в виде строк это другое дело, лишь бы чисел там не было, потому что операции над числовыми видами данных, вам недоступны, я об этом и говорил. Там смотрите, еще раз pandas не будет понимать что это списки со строками. Он будет понимать все это как строку вместе с элементами []. Есть акссесор str, который позволяет работать с каждым элементом ячейки, как если бы это была отдельная python строка, там у него куча методов есть включая хоть regex можно прикрутить.
  • Почему переменная изменяет значение?

    Ася, Хорошо, когда вы получаете фрейм из файла, все может быть на много хуже, чем списки. В чем проблема списка как элемента ячейки, в том что для pandas нет никакого списка если вы вызовете df.dtypes то увидите тип данных вашей колонки 'object'. Что это значит? А значит это что pandas понимает содержание колонки как "python" объект и никакие операции кроме строковых ему недоступны, вы все еще можете например написать функции и применить ее методом apply например которая будет вычислять mean или что то другое, но будет страшно медленная и для каждой операции придется писать функцию, это так не работает.

    Вам нужно распарсить данные увеличить количество столбцов если необходимо и применять операции согласно типу данных.
  • Как правильно сгенерировать дату в Pandas?

    Chubaka, Ну я чуть-чуть на бегу писал, решение то рабочее, но я им сам недоволен, вообще такие задачи решаются через многомерный индекс. Где день это первый уровень индекса, артист второй, потом песни, потом случайная выборка на каждую песню, а потом распремляем индексы и получаем тот же результат, только с меньшим количеством кода плюс куда быстрее, чем мой вариант. Чуть время появится, сделаю для тренировки, задачка ваша не плохая может пригодится.
  • Как написать код, чтоб данные генерировались в .csv вместо .xls?

    Ты используешь pandas, вместо pd_series.to_excel
    pd_series.to_csv(database)
    и все, параметр engine не нужен. Да и поменяй у тебя database = 'data.xls' на 'data.csv'.
  • Не получается спарсить, что делаю не так?

    RimMirK, Это парсинг, сегодня мой работает а завтра не факт. Лучше иметь их кучу и выбирать случайно.
  • Как сделать рандомное число без повторений при вызове функции?

    Это называется выборка без замены элемента и она такая же случайная, как и выборка с заменой, как в случае с монеткой. Есть пространство выборки и есть то как мы осуществляем выборку с заменой элемента или без замены. В случае выборки БЕЗ замены, размер пространства выборки сокращается на 1 с каждым новым выбором да и все.
  • Изменили выходные параметры в fitted.forecast в Python - как его теперь использовать в моем случае?

    Поправить, api что бы все заработало не проблема, но вот графика такого не выдаст да и я если честно слабо себе представляю, такая маленькая временная последовательность, а должна предсказывать на 39 шагов вперед, Слишком уж далеко. При чем обрати внимание, что оно тебе выдает если ты используешь метод forecast он тебе вернет series с прогнозами. Закомментруй все что касается интервалов уверенности убери стандартную ошибку. То есть оставь вот так, fc = model.forecast(39, alpha=0.05) и глянь на него сначала он пытается прогнозировать, а потом выдает одинаковые результаты, а интервалы, стандартные ошибки, есть объекты где они содержаться атрибутами да и все, api это вообще не проблема, я две строчки поменял и все заработало. Но прогноза, как на графике он не делает, по этому я и не стал публиковать ответом. Как по мне качество статьи оставляет желать лучшего да и все.
  • Пожалуйста порекомендуйте с выбором проекта Data science?

    a scikit-learn, statsmodels? Что то изучали, pandas и numpy это про манипуляции данными а не про построение предиктивных моделей или про делание статистических выводов. Data Science - в двух словах это наука о превращении сырых данных в ЦЕННУЮ информацию. На чистом pandas ну разве что EDA анализ можно сделать (Визуализировать распределения, и потенциальные взаимоотношения как индивидуально между предикторами и целью, так и взаимоотношения предикторов между собой).

    Каковы задачи вашего проекта? что можно использовать? проект о простеньких манипуляциях + визуализация на pandas или что то по серьезнее со статистическими выводами и прогнозированием?
  • Почему условие выполняется не корректно?

    Сергей П, Нет, я не то что бы спорить зачем есть логические операторы и их надо использовать в первую очередь, а если есть какие то причины требующие побитовые то только тогда побитовые, я согласен с вами, потенциальный эффект логического оператора ну например False AND some_function() если функция скажем не валидная должно быть исключение а вместо исключения у нас будет False, это негативный сценарий на позитивный указали вы, мы избегаем лишних вызовов функций. Полностью согласен.

    Буду честен я использовал побитовые машинально, потому что основной код который пишу это pandas а там вместо логических используются побитовые. Но я не должен машинально использовать, а должен понимать, что делаю, python мой основной язык. По большему счету мне ПОВЕЗЛО, что код не имеет побочных эффектов. Повезло, это не профессионально и не куда не годится.

    Я вечерком открыл побитовую арифметику и не нашел потенциальных побочных эффектов. Где у нас могут проблемы (как мне думается) если мы вылетим где то из 0 или 1. например 10 & 9 он вернет 8, почему потому что в результате побитового умножения мы мы получим 8 (сначала в бинарном представлении) ну и он конвертирует в целое число 8. Ну и такие кейсы это не то что мы хотим. Но за счет того что любой критерий это True или False то есть 1 или 0, я не увидел не каких кейсов где это будет иметь непредсказуемое поведение.

    В любом случае спасибо за дискуссию, лучше лишний раз что то повторить и разобраться.
  • Почему условие выполняется не корректно?

    Сергей, Почитал , немножко разочарован (с ваших слов я ожидал, что что-то серьезное упустил) побочный эффект как раз таки имеет логический оператор, собственно вы этот эффект и предлагали изначально использовать что бы не производить лишние вычисления. По битовое AND (&) он берет бинарное представление целого числа далее a_i * b_i для бинарного представления числа. По битовое OR (|) например a_i + b_i - (a_i * b_i). Бинарное представление True ->1, False ->0, то любая операция даст на выходе 1 или 0, как и ожидается.

    False, True являются подклассом int. 0, 1 соответственно. ,бинарная форма 0 -> 0 , бинарная форма 1 -> 1. Откуда тут взяться побочным эффектам.
  • Почему условие выполняется не корректно?

    Сергей Паньков, Не ну насчет критериев, понятно надо вводить критерий сложности. Хотя бы что то вроде этого. Энтропия = log_2(Количество возможных символов^длинна пароля). Ну и сравнивать, оптимизимировать, относительно желаемых условий и т.д.
  • Почему условие выполняется не корректно?

    Сергей Паньков, Отлично, правильно логические на то и логические (что бы тестировать логически) а по битовые что бы тестировать оба операнда. Что же меня ждет явное повторение булевых и побитовых операций в чистом python. Спасибо надо устранять, я так ошибаться не должен.
  • Почему условие выполняется не корректно?

    Сергей Паньков, А вот это уже аргумент, вы правы. В моем случае, когда дизайн подразумевает при любом раскладе вычисление всех критериев, странно использовать побитовое AND, надо использовать логическое AND, раз уже все посчитано, так пусть полностью выполняет выражение, а не если слева False то стоп, если True идем дальше. Согласен. Надо было мне в этом моменте быть внимательно, привык в pandas использовать ПОБИТОВЫЕ операторы и влепил. Ну это не оправдание, в этом моменте вы правы.
  • Почему условие выполняется не корректно?

    Сергей Паньков, Смотрите, я вас понял прекрасно, что вы имеете ввиду. Вы мне говорите, что я зря посчитал критерии, потому что в булевом выражение например простейшем (False & .. ) то что справа никогда не будет выполнено, так как python уже поймет, что выражение False, как результат происходят лишние вычисления критериев, в моем коде они то все вычисляются (А если держать их функциями и вставить функции в булевое выражение, питону надо будет вызовет, не надо будет не вызовет). Оптимизация ли это конечно оптимизация.

    Повторюсь, для меня это был вопрос дизайна, как минимум в аналитике при декомпозиции, сложный ввод, или какие то выборки из структур данных, разбивают на критерии и выполняют их все, когда возможно конечно, (ваше замечание никто не отменял), потому что в большинстве случаев нам необходимо не только выполнить выражение, но и знать по какому именно критерию у нас False. (Собственно, вы уже предложили, добавить сообщение пользователю, о том в чем причина почему пароль не надежный).

    По этому при все уважении, я не согласен, что я учу плохому, мой код плохая практика, грязный хак, как вы выразились. И останусь на своем.

    Ну а мнение, всегда ценно (критическое ценно вдвойне) . Спасибо.
  • Почему условие выполняется не корректно?

    Сергей Паньков, Спасибо за ваше мнение , но я не согласен с вами. В целом я вообще не думал об оптимизации при написании данного кода (для меня вопрос не в этом), я ставил целью продемонстрировать дизайн который легко читать, легко проверять и т.д. Создание отдельных критериев и затем создание из них булевого выражения довольно распространенная практика. Если условий будет больше и они будут сложнее мой код, легко адаптируется под них.
  • Задача с перестановкой спичек?

    В каком институте такое задают?
  • Как удалить похожие строки из таблицы в Pandas, Python?

    Оставьте только тег pandas, придет модератор и все равно удалит. В pandas не используют циклы для процессинга данных. Задача ваша элементарная решается в одну строчку кода.
  • Какие библиотеки для добавления данных в гугл таблицы вы знаете?

    Bzikol, Ну API ботов я не знаю, вопрос был как работают с google sheets. Все манипуляции табулярных данных посредством pandas, остальное это коннекторы что бы удобно отправлять фрейм (упрощенно таблицу) в google sheets.
  • Как увеличить точность предсказаний?

    U235U235, Лучше бы автор вопроса да и вы объяснили бы что такое точность 70% в регрессивной задаче.
    В нём есть поля в качестве входных данных и поле целевой переменной. Данные - обычные числа float.
    То есть у нас и X и y непрерывные и это задача регрессии. 70% процентов может быть у задач классификации. (у задач регрессии другие метрики R2 score, MSE, RSME и.т.д) И пусть алгоритм будет например логистическая регрессия (он решает задачи классификации y ДИСКРЕТНЫЙ. На самом деле в ТЕОРИИ и только в ТЕОРИИ и линейная регрессия может быть использована для задач классификации (на практике этого не делают).

    Слово регрессия в названии алгоритма - не одно и тоже, как проблема регресиии.
    Автор говорит и X y у меня float нам нет дело до X он может быть любым, а вот y то НЕ дискретный. Значит это проблема регрессии. Откуда тогда 68-70% должно быть R2 score, MAE или RMSE.

    Я не стал заострять на этом внимание в ответе, так что бы автор начал что то делать КОНКРЕТНОЕ, и появились КОНКРЕТНЫЕ вопросы.

    Что же касается вашего заявления

    И самое главное, не факт, что все это поможет.
    ну там где есть вариативность 100% гарантии конечно нет, не одни метод статистического анализа или машинного обучения не гарантирует 100% результата. Если же мы опустим сто "процентность" то поможет, и еще как поможет.