Еще большой плюс C# в том, что только он поддерживается в Mono.
А значит только на нем можно писать кроссплатформенные приложения под Linux, Mac, Android и iOS (во всяком случае в теории).
Сам же себе и отвечу: в tesseract 3.0 есть опция «hocr», которая позволяет возвращать не просто распознанный текст, а страницу в html формате, содержащую распознанные слова и их координаты.