Задать вопрос
Ответы пользователя по тегу Электронные таблицы
  • Извлечение таблиц со спецификациями из PDF чертежей металлоконструкций - решаемо? Или я встрял?

    Maksim_64
    @Maksim_64
    Data Analyst
    Было дело работал с российскими нормативными документами гостами. По сталям и фиттингам для трубопроводов.

    1. Качество pdf очень важная история. Если совсем плохое парсер не возьмет (нужно искать в интеренте) есть открытые нормативные базы.
    2. парсеры (tabula, camelot) с множеством настроек, в зависимости от того, как настроишь зависит практически все.
    3. Ну и pandas обе библиотеки вернут список с дата фреймами, где фрейм это каждая таблица. Обычно требует много пост процессинга, например две таблицы на странице а их конкатенировать одна на одну, таблицы имеют "многоуровневую шапку" column multi index на языке пандаса и т.д.

    После пункта три, до желаемого результата одна строчка кода.
    Ответ написан
    Комментировать
  • Как в python при чтении файла excel убрать дубликаты ячеек в одном столбце и сложить соответствующие значения в другом?

    Maksim_64
    @Maksim_64
    Data Analyst
    читай в pandas фрейм, методом read_excel.
    Затем группируй по номеру и аггрегируй функцией sum.
    Псевдо код будет такой.
    df = pd.read_excel('Твой Файл')
    df.groupby('Телефон A')['Сумма'].sum()

    Функция, read_excel имеет огромное количество параметров, возможно что то придется настраивать. Остальное называется группировкой, и аггрегацией, на каждой группе. Результатом будет сумма по каждому номеру.
    Ответ написан
    Комментировать