Извлекаем текст с помощью технологии оптического распознавания текста, используя pytesseract
@pyproglibЧто такое OCR?
Оптическое распознавание текста – процесс извлечение текста с картинки или документов (к примеру, PDF) и переиспользование его разными способами, например, для задачи поиска информации.
Установка
$ sudo pip install pytesseract
Использование
В коде Python:
import Image
from tesseract import image_to_string
print(image_to_string(Image.open('test.png')))
print(image_to_string(Image.open('test-english.jpg'), lang='eng'))
Из командной строки:
$ ./pytesseract.py test.png
Код выше распечает текст с картинки.
$ ./pytesseract.py -l eng test-english.jpg