• Как парсить таблицы в pdf файле Python'ом?

    @Hedgehogues
    Ёж
    Я тоже столкнулся с такой проблемой. При этом опенсорсных средств, позволяющих решать такую задачу, я не нашёл. Поэтому пришлось написать свой парсер HoChiMinh.

    Сейчас я его не поддерживаю. Но он находится в рабочем состоянии и довольно неплохо выделяет каркас регулярных таблиц, которые ориентированы по сторонам страницы pdf. При этом, он также зависит от OCR, которая осуществляет извлечение текста из ячейки. По дефолту -- это Tesseract. Но для качественной работы лучше использовать другую тулзу.
    Ответ написан
    Комментировать
  • Хорошие книги по Computer Science?

    @Hedgehogues
    Ёж
    Думаю, что тебе нужно идти сюда:
    informatics.mccme.ru
    timus.ru
    codeforces.ru
    topcoder.com
    kaggle.com

    Книги... не знаю. Стоит ли. Начинай сразу с практики. На этих ресурсах есть как очень простые, так и очень сложные задачи. Смотри в сторону informatics.
    Ответ написан
    Комментировать