Как разбить таблицу на ячейки со скана?

Question

Павел Ерошевич @pavelerosh

Как разбить таблицу на ячейки со скана?

Написал на питоне скрипт, который разбивает сканированный документ на блоки и нарезает их в отдельные файлы, эти файлы скармливать в Tesseract. Проблема заключается в появлении таблицы в документе, каким образом можно понять что это таблица и нарезать ее на ячейки(учитывать collspan/rowspan)?

Вопрос задан более трёх лет назад
172 просмотра

8 комментариев

Подписаться 2 Средний 8 комментариев

Sergey Svetlov @svetloffs

было бы здорово, если бы Вы код показали свой.
таблица где и в каком виде у Вас появляется? нужен код :)

Написано более трёх лет назад

Павел Ерошевич @pavelerosh Автор вопроса

Sergey Svetlov, привожу код, хоть он сильно и не поможет, задача всё равно сводится к определению таблицы на изображении и разбивке на ячейки

import cv2
try:
    from PIL import Image
except ImportError:
    import Image
import pytesseract
import os

def get_points(approx, h, w):
    x1 = max(min(r[0][0] for r in approx)-10,0)
    y1 = max(min(r[0][1] for r in approx)-10,0)
    x2 = min(max(r[0][0] for r in approx)+10,w)
    y2 = min(max(r[0][1] for r in approx)+10,h)
    return x1,y1,x2,y2

def filters(img):
    imgray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    imgray = cv2.convertScaleAbs(imgray)
    imgray = cv2.GaussianBlur(imgray, (7, 7), 0)
    imgray = cv2.Canny(imgray, 10, 250)
    kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (25,25))
    imgray = cv2.morphologyEx(imgray, cv2.MORPH_CLOSE, kernel)
    return imgray

im = cv2.imread('doc3.jpg')
(h, w) = im.shape[:2]

imgray = filters(im)

cnts = cv2.findContours(imgray.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)[0]

for ind, c in enumerate(reversed(cnts)):
    peri = cv2.arcLength(c, True)
    approx = cv2.approxPolyDP(c, 0.002 * peri, True)

    x1,y1,x2,y2 = get_points(approx, h, w)

    if pow((x2-x1)**2 + (y2-y1)**2, 0.5)<80:
        continue

    ROI = im[y1:y2, x1:x2]
    
    #Далее отпарвка в тессеракт ROI

для образца можно взять любое изображение документа из сети, например
upravdom-7.ru/Portals/118/Docs1/vmuzep7-02.jpeg

Написано более трёх лет назад

Sergey Svetlov @svetloffs

спасибо
пробовал так Вашу задачу (тестовая картинка с таблицей такая
код: import pytesseract
from PIL import Image, ImageEnhance, ImageFilter

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR/tesseract.exe'

img = Image.open(r"C:\Users\Admin\JupiterPython\My_projects\table_test.png")
text = pytesseract.image_to_string(img, lang='eng+rus')

print(text)

Написано более трёх лет назад
Sergey Svetlov @svetloffs

код выдает данные из таблицы с картинки

Написано более трёх лет назад
Павел Ерошевич @pavelerosh Автор вопроса

Sergey Svetlov, нет, тессеракт не проблема, с ним разобрался, но ему становится плохо, когда в ячейках таблицы несколько строк, тогда он просто построчно считывает данные, как будто границ таблицы не существует, слева направо, сверху вниз. Возможно, я не умею готовить тессеракт...

Написано более трёх лет назад
Sergey Svetlov @svetloffs

не мое, но может поможет (файл с картинкой поменяйте):

from PIL import Image
from matplotlib import pyplot as plt
import pytesseract
import numpy as np
import cv2
import math
import os

file = r"your_path_image"
table_image_contour = cv2.imread(file, 0)
table_image = cv2.imread(file)
ret, thresh_value = cv2.threshold(table_image_contour, 180, 255, cv2.THRESH_BINARY_INV)
kernel = np.ones((5,5),np.uint8)
dilated_value = cv2.dilate(thresh_value,kernel,iterations = 1)
contours, hierarchy = cv2.findContours(dilated_value, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
for cnt in contours:
x, y, w, h = cv2.boundingRect(cnt)
# bounding the images
if y < 500:
table_image = cv2.rectangle(table_image, (x, y), (x + w, y + h), (0, 0, 255), 1)
plt.imshow(table_image)
plt.show()
cv2.namedWindow('detecttable_', cv2.WINDOW_NORMAL)
print(table_image)

#результат (надо настраивать)

Вообще, конечно, для таких штук надо самому настраивать нейронку :)

Написано более трёх лет назад
Павел Ерошевич @pavelerosh Автор вопроса

Sergey Svetlov, спасибо, попробую

Написано более трёх лет назад
Sergey Svetlov @svetloffs

Павел Ерошевич, вот еще по Вашей теме:
https://www.pyimagesearch.com/2018/09/17/opencv-oc...

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- вчера
- 73 просмотра
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 88 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 303 просмотра
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 233 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 649 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 550 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 307 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 566 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 228 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 140 просмотров
1

ответ
Показать ещё Загружается…

было бы здорово, если бы Вы код показали свой.
таблица где и в каком виде у Вас появляется? нужен код :)
Sergey Svetlov, привожу код, хоть он сильно и не поможет, задача всё равно сводится к определению таблицы на изображении и разбивке на ячейки

import cv2 try: from PIL import Image except ImportError: import Image import pytesseract import os def get_points(approx, h, w): x1 = max(min(r[0][0] for r in approx)-10,0) y1 = max(min(r[0][1] for r in approx)-10,0) x2 = min(max(r[0][0] for r in approx)+10,w) y2 = min(max(r[0][1] for r in approx)+10,h) return x1,y1,x2,y2 def filters(img): imgray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) imgray = cv2.convertScaleAbs(imgray) imgray = cv2.GaussianBlur(imgray, (7, 7), 0) imgray = cv2.Canny(imgray, 10, 250) kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (25,25)) imgray = cv2.morphologyEx(imgray, cv2.MORPH_CLOSE, kernel) return imgray im = cv2.imread('doc3.jpg') (h, w) = im.shape[:2] imgray = filters(im) cnts = cv2.findContours(imgray.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)[0] for ind, c in enumerate(reversed(cnts)): peri = cv2.arcLength(c, True) approx = cv2.approxPolyDP(c, 0.002 * peri, True) x1,y1,x2,y2 = get_points(approx, h, w) if pow((x2-x1)**2 + (y2-y1)**2, 0.5)<80: continue ROI = im[y1:y2, x1:x2] #Далее отпарвка в тессеракт ROI

для образца можно взять любое изображение документа из сети, например
upravdom-7.ru/Portals/118/Docs1/vmuzep7-02.jpeg
спасибо
пробовал так Вашу задачу (тестовая картинка с таблицей такая
код: import pytesseract
from PIL import Image, ImageEnhance, ImageFilter

pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR/tesseract.exe'

img = Image.open(r"C:\Users\Admin\JupiterPython\My_projects\table_test.png")
text = pytesseract.image_to_string(img, lang='eng+rus')

print(text)
код выдает данные из таблицы с картинки
Sergey Svetlov, нет, тессеракт не проблема, с ним разобрался, но ему становится плохо, когда в ячейках таблицы несколько строк, тогда он просто построчно считывает данные, как будто границ таблицы не существует, слева направо, сверху вниз. Возможно, я не умею готовить тессеракт...
не мое, но может поможет (файл с картинкой поменяйте):

from PIL import Image
from matplotlib import pyplot as plt
import pytesseract
import numpy as np
import cv2
import math
import os

file = r"your_path_image"
table_image_contour = cv2.imread(file, 0)
table_image = cv2.imread(file)
ret, thresh_value = cv2.threshold(table_image_contour, 180, 255, cv2.THRESH_BINARY_INV)
kernel = np.ones((5,5),np.uint8)
dilated_value = cv2.dilate(thresh_value,kernel,iterations = 1)
contours, hierarchy = cv2.findContours(dilated_value, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
for cnt in contours:
x, y, w, h = cv2.boundingRect(cnt)
# bounding the images
if y < 500:
table_image = cv2.rectangle(table_image, (x, y), (x + w, y + h), (0, 0, 255), 1)
plt.imshow(table_image)
plt.show()
cv2.namedWindow('detecttable_', cv2.WINDOW_NORMAL)
print(table_image)

#результат (надо настраивать)

Вообще, конечно, для таких штук надо самому настраивать нейронку :)
Павел Ерошевич, вот еще по Вашей теме:
https://www.pyimagesearch.com/2018/09/17/opencv-oc...

Answer 1 · 2020-08-22 17:17:29

Павел, а где "Проблема заключается в появлении таблицы в документе" это ?
Ваш код выдает nparray - это набор чиселок, но не данные таблицы.

Как разбить таблицу на ячейки со скана?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт