Не видел вашего комментария, но если не поздно, то могу рассказать в чём дело :) На самом деле и Optimizely и WVO не запускают тесты на всех пользователях, а только на их части. В зависимости от количества трафика выбирается какое-то минимально приемлемое статистически значимое значение. Только эта цифра и показывается в отчётах этих сервисов, на самом же деле, посетителей больше, что и показывают обычные системы статистики.
В твиттере предложили неплохое решение для продакшена — собирать всё в один файл, а потом разрезать на модули. Но с девом проблемы по-прежнему остаются