Дополнить массивы до кратности 4. Представить их в виде массивов int. Почти все мобильные процессоры 32-битные, так что int полностью помещается в регистре. И иксорить инты. Можно в несколько потоков, отведя каждому потоку по куску данных.
Другой путь - opencl. Есть биндинги под java и реализации под android.