Максим Тимофеев: узнАют так, что это давно уже проблема для больших магазов типа Мвидео, и не только, вплоть до того, что тут обсуждалось. Парсеры на месте не стоят
ща лень детально писать про кодирвки и не знаю куда смотреть изначально: в системную локаль или Питон, но загрузка и хранение файлов с символами в именах отличными от ASCII - оооооооооооооочень ПЛОХАЯ идея.
Храните в числах, переименовывайте в русский при отдаче. Если так уж русский нужен.
вордстат опасен
"окна Москва" против "Попокатепетль", он, конечно, покажет
но вот с "деревянные окна Москва" насоставляв бизнес-планов без царя в голове можно и пролететь
по условию задачи - да, по идее, только числа
а на практике - запросто встречаются - парсинг XPath ом (да и кривыми регекспами типа (.*) некой таблицы - и вот оно
без сортировки никак, см. как устроены структуры данных Сергей Горностаев посоветовал, как покороче, но это ж доп импорты, и все равно сортировка, правда, на больших значениях может выполниться быстрее