Извлекаем текст с помощью технологии оптического распознавания текста, используя pytesseract

Извлекаем текст с помощью технологии оптического распознавания текста, используя pytesseract

@pyproglib

Что такое OCR?

Оптическое распознавание текста – процесс извлечение текста с картинки или документов (к примеру, PDF) и переиспользование его разными способами, например, для задачи поиска информации.

Установка

$ sudo pip install pytesseract

Использование

В коде Python:

import Image
from tesseract import image_to_string

print(image_to_string(Image.open('test.png')))
print(image_to_string(Image.open('test-english.jpg'), lang='eng'))


Из командной строки:

$ ./pytesseract.py test.png 


Код выше распечает текст с картинки.

$ ./pytesseract.py -l eng test-english.jpg


Report Page