Самый лучший способ, который я вижу:
1. Устанавливаем на папку что-то вроде логгера filemon(win)/strace(*nix) на операции открытия/чтения файлов.
2. Запускаем в НЕСКОЛЬКИХ! браузерах в АНОНИМНОМ! режиме (режим "Невидимки", чтобы исключить кэшированные данные и хранимые данные сессии).
3. Проходим все ветки по бизнес-процессу (те, что планируется использовать).
Полученный унифицированный лог открывавшихся системой файлов в заданном каталоге и будет то, что нужно оставить, всё остальное - лишнее.
Т.е. из имеющегося на диске списка файлов логически вычитаем список, полученный из лога, и получаем разницу: файловый список для дальнейшего удаления/чистки.
strace - лучше всего подойдёт для отслеживания.
примеры вызовов:
здесь