Извлекаем текст с помощью технологии оптического распознавания текста, используя pytesseract

@pyproglibJuly 30, 2018

Извлекаем текст с помощью технологии оптического распознавания текста, используя pytesseract

Что такое OCR?

Оптическое распознавание текста – процесс извлечение текста с картинки или документов (к примеру, PDF) и переиспользование его разными способами, например, для задачи поиска информации.

Установка

$ sudo pip install pytesseract

Использование

В коде Python:

import Image
from tesseract import image_to_string

print(image_to_string(Image.open('test.png')))
print(image_to_string(Image.open('test-english.jpg'), lang='eng'))

Из командной строки:

$ ./pytesseract.py test.png

Код выше распечает текст с картинки.

$ ./pytesseract.py -l eng test-english.jpg

Report content on this page

Извлекаем текст с помощью технологии оптического распознавания текста, используя pytesseract

Что такое OCR?

Установка

Использование

В коде Python:

Из командной строки:

Report Page