Как минимум Вы не учитываете что если в аналоге Примера 2 будут все буквы алфавита, то замена будет невозможна, т.к. невозможно будет использовать временную переменную (как буква я в Примере 2).
1. Выводите черным текст, делаете эрозию:
src_img.filter(ImageFilter.MinFilter(3)), размываете по Гауссу.
2. По тем же координатам выводите белый текст.
Совсем готового решения нет, но можно написать bash/cmd скрипт, который в цикле будет брать картинки, кропать их imagemagick'ом, распознавать tesseract'ом и формировать CSV.
Преобразование Хаара это свертка сигнала с вейвлетом Хаара и масштабирующей функцией. https://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%B9%D...
Преобразование Хаара соотносится с вейвлетом Хаара примерно так же, как и преобразование Фурье соотносится к функции синуса.
Используйте cv2.getPerspectiveTransform для нахождения матрицы преобразования по 4 парам точек (углы). А затем cv2.warpPerspective для, собственно преобразования картинки.
Также вместо OpenCV можно использовать Imagemagick.
Наверное как-то так:
1.Прочитать и декодировать файл mp3
2. Взять отсчеты через один.
3. Кодировать и записать файл.
В итоге вы должны получить ускоренный в 2 раза аудиофайл.