Ответы пользователя mayton2019 по тегу «Python»

Как найти 3 самых частых символа в строке?

mayton2019 @mayton2019

Bigdata Engineer

Много путей. Можно отсортировать и потом просто пройтись по всем сериям.

aaaaaaaabbcccccdeeeeeeeeeeee
Вот здесь глазами видно что серия а и е самые длинные а потом еще с.

Ты смог найти самый частый. Так вот. Как только нашел. Удали его из строки и ищи следующий частый.
Вобщем я думаю еще миллион способов. И с хеш-таблицами и с деревьями.

Ответ написан 15 июн. 2023

2 комментария

Невозможно открыть файл?

mayton2019 @mayton2019

Bigdata Engineer

Ох инженеры пошли совсем никудышние.

Заходи в cmd. И делай

c:
cd \
cd Users
cd "Пользователь"
cd "PycharmProjects"
cd "pythonProject1"

Вот на каком-то фолдере ты увидишь несоотвествие.

Ответ написан 14 июн. 2023

Комментировать

Как правильно реализовать алгоритм Дейкстры в Python с применением ООП?

mayton2019 @mayton2019

Bigdata Engineer

Графы и графовые алгоритмы являются хорошим краш-тестом для memory. Очень сложно придумать оптимальную структуру для графа чтоб было и экономно и быстро искать исходящие и входящие ребра в вершину.

Есть компактные структуры из примитивов такие как матрицы смежности например. Но они могут быть плохие
в другом. Например в поиске в глубину. Насколько Алгоритм Дейкстры пригож для этих структур - никто не знает.

Я-бы предложил брать большой граф на несколько тысяч вершин и гонять его в разных структурах добиваясь
хорошего соотношения скорости к размеру потребляемой памяти.

Ответ написан 25 мая 2023

2 комментария

Надо ли что-то еще делать для избежания SQL инъекций?

mayton2019 @mayton2019

Bigdata Engineer

Нет. Ничего больше не нужно делать. Вообще не нужно делать никаких действий которые нельзя доказать или как-то протестировать. Иначе программирование превращается в черную магию и колдунство.

Ответ написан 25 мая 2023

Комментировать

Как агрегировать данные по элементам вложенного массива?

mayton2019 @mayton2019

Bigdata Engineer

выгружаются данные в виде json(csv):

Я вижу 2 стратегии как с этим работать.

1) Как с чистым JSON документом. Можно работать языком запросов JsonPath. И выбирать и трансформировать узлы Json многократно до полного формирования результата.

2) Как с дата-фреймом технологии Pandas, Databricks/Spark. Судя по внешнему виду это Пандас
загрузит успешно. Насчет Датабрикс я не уверент. Тот точно работает с Json-Lines а не с таким деревом где
есть единый корень. У дата-фрейма есть свойства SQL-курсора. Тоесть по нему можно бегать и выбирать
данные. Или другой датафрейм. И датафрейм обычно имеет больший запас прочности по объему данных.

Какую стратегию выбрать - это больше вопрос к автору. Вот что он лучше знает - то пускай и выбирает.

Войдите на сайт