Нужно автоматизировать следующую задачу:
На вход программе поступает файл формата xlsx. В файле несколько листов(листы по населенным пунктам), в каждом листе имеются адреса абонентов(колонка).
Нужно по адресам определить наличие технической возможности проведения определенной услуги. Т.е по адресу найти абонента в бд и определить тех.возм. В компании используется субд oracle.
Нужно реализовать эту задачу в виде веб-приложения.
Хоть и на вход поступает один файл, но этот файла > 50 Mb. Открывается он почти минуту. Кол-во адресов на 1 листе может достигать 1млн записей.
Я так понимаю нужно что-то быстрое выбрать(Си? си шарп?А нода подойдет или питон?)
VeryLongAgoDid, я использовал openpyxl для чтения. Взял для начала файл с одним листом на 1 млн строк. ушло 230 секунд. Я сохранил этот миллион в список с помощью генератора списков для дальнейшей вставки в oracle.
то, что только на чтение уходит столько времени - это норм? скажем на си чтение также долго будет?
WebForYou, если по аналогии с excel, то 230с это нормально. В целом можно ускорить. На python написаны библиотеки переводящие выполнение на c.
А вообще выбирайте инструменты, с которыми будет удобно работать и сейчас и потом поддерживать
VeryLongAgoDid, а как ускорить? numba как я понимаю только с мат вычислениями работает. Я бы хотел вынести код чтения в функцию которая возвращала бы список.