Інформаційний синтез системи автоматичного розпізнавання бланків документів - Программирование, компьютеры и кибернетика дипломная работа

Главная

Программирование, компьютеры и кибернетика
Інформаційний синтез системи автоматичного розпізнавання бланків документів

Огляд методів розпізнавання образів. Основні ідеї інформаційно-екстремального методу розпізнавання рукописних символів. Критерій оптимізації параметрів функціонування даної системи. Інформаційне та програмне забезпечення обробки рукописних символів.

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Нужна помощь с учёбой? Наши эксперты готовы помочь!
Нажимая на кнопку, вы соглашаетесь с
политикой обработки персональных данных

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Записка : 68 стр., 7 рис., 1 табл., 1 додаток, 41 джерел.
Об'єкт дослідження - система розпізнавання рукописних символів.
Мета роботи - розробити інформаційне та програмне забезпечення системи розпізнавання рукописних символів.
Методи дослідження - інформаційно-екстремальна інтелектуальна технологія.
Результати - розроблено алгоритм та програмне забезпечення системи розпізнавання символів, що навчається в рамках інформаційно-екстремальної інтелектуальної технології.
Незважаючи на те, що електронні методи знайшли широке впровадження при автоматизації документообігу і діловиробництва, але існує велика кількість підприємств та організацій, в котрих надходження інформації ззовні неможливе без участі паперових документів. Ця проблема особливо актуальна в банках, податкових інспекціях та інших подібних закладах. У зв'язку з цим загострилась проблема автоматичного введення і розпізнавання рукописної інформації.
У теперішній час технічно не складно перетворити паперовий документ в цифровий формат. Для цього можна скористатися сканером, цифровою фото або відео камерою. Якщо перетворення паперових документів в цифровий вигляд можна вважати вирішеною проблемою, то розпізнавання введеного документа все ще залишається актуальним. Хоч і створені програми розпізнавання друкованих документів з прийнятною якістю розпізнавання, але більшість розроблених систем дають великі похибки при обробці текста низької якості, чи текста з різним рівнем яскравості. Якщо ж говорити про розпізнавання рукописних документів, то можна сказати, що результатів, задовільних на практиці, ще не отримано.
Тема дипломної роботи є актуальною, оскільки вона присвячена розпізнаванню рукописних символів, що до теперішнього часу залишається невирішеною проблемою. У дипломній роботі розглядається задача підвищення функціональної ефективності системи розпізнавання рукописних символів, що дозволяє з більшою достовірністю і оперативністю приймати управлінські рішення, обробляти великі масиви текстової інформації, здійснювати факсимільну передачу оригіналів підписів і фінансових документів.
1 АНАЛІЗ ПРОБЛЕМИ ТА ПОСТАНОВКА ЗАДАЧІ
Таблиця 1.1 Класифікація методів розпізнавання
Методи, основані на оцінках плотності розподілу значень ознак (або подібність і розбіжність об'єктів)
Задачі з відомим розподілом , як правило нормальним, необхідна наявність великої кількості статистичних даних
Відсутність ототожнення. Необхідність в переборі всієї навчальної вибірки при розпізнаванні, висока чутливість до непредставницької навчальної вибірки та артефактів.
Методи, основані на припущеннях про клас вирішальних функцій
Класи повинні бути добре роздільними, система ознак - ортонормованою
Відсутність ототожнення. Повинен бути попередньо відомий вид вирішальної функції. Неможливість врахування нових знань про кореляцію серед ознак
Задачі невеликої розмірності простору ознак
Відсутність ототожнення. При відборі логічних вирішальних правил (кон'юнкцій) необхідний повний перебір. Висока обчислювальна робота
Задачі невеликої розмірності простору ознак
Відсутність ототожнення. Задача відновлення (визначення) граматики по певній множині висловлювань (опису об'єктів), являється важкою для формалізації. Невирішеність теоретичних проблем.
Задачі невеликої розмірності простору ознак
Відсутність ототожнення. Висока залежність результатів класифікації від міри відстані (метрики)
Задачі невеликої розмірності по кількості класів та ознак
Відсутність ототожнення. Висока залежність результатів класифікації від міри відстані (метрики).
Необхідність повного перебору навчальної вибірки при розпізнаванні. Трудоємність при обчисленні.
Алгоритм обчислення оцінок (голосування) АОО
Задачі невеликої розмірності по кількості класів та ознак
Відсутність ототожнення. Залежність результатів класифікації від міри відстані (метрики). Необхідність повного перебору навчальної вибірки при розпізнаванні. Висока технічна складність методу.
Задачі невеликої розмірності по кількості класів та ознак
Відсутність ототожнення. Висока технічна складність методу, невирішеність ряду теоретичних проблем, як при виділенні області компетенції часткових методів, так і самих часткових методах
Аналіз перспективних напрямів розвитку методів розпізнавання показує, що для успішного досягнення мети дослідження необхідно вирішити (або обійти) такі проблеми:
2) досягнення незалежності часу розпізнавання від обсягу навчальної вибірки;
3) корекція зниження розмірності простору ознак без відчутної втрати значимої інформації;
4) досягнення високої валідності результатів аналізу;
Надійність розпізнавання значною мірою залежить від якості зобр аження символів, яке визначається формою символів або стилем написання і способом виконання.
Алгоритм двомірного дискретного косинусного перетворення [4, 5, 7] реалізується наступним виразом:
Функція B = dct 2 ( A ) повертає результат двомірного дискретного косинусного перетворення для матриці А. Матриця В має той же розмір, що і матриця А , і відображає коефіцієнти дискретного косинусного перетворення.
Функція B = dct 2 ( A , m , n ) повертає результат двомірного дискретного косинусного перетворення для матриці А розміром m х n . Якщо розмір матриці А менший, вона доповнюється нульовими елементами до заданого розміру.
Матриця А може включати елементи класу double або любого класу i n teger . Матриця В має елементі класу double .
Методи розпізнавання рукописних символів, що розглядатимуться далі, історично являються ранніми. Вони передбачають попередню детальну обробку зображень, що розпізнаються. На основі такої обробки виділяють найбільш характерні особливості зображень для їх класифікації. Потім ці осо бливості перетворюються в коди, зручні для введення в систему розпізнавання.
Так як опис зображень формується з врахуванням конкретної задачі, системи розпізнавання такого типу є непридатні, коли якісно змінюється множина зображень, які необхідно класифікувати, а також коли класифікація набуває новий зміст. В такого типу системах практично відсутнє навчання, так як всі її параметри відразу жорстко задаються конструктором.
В системах розпізнавання, що використовують для зберігання еталона його електричну модель, зображення попередньо перетворюється в послідовність дискретних за рівнем і часом електричних сигналів. Кожен сигнал з певною точністю відповідає коефіцієнту відображення однієї клітини рецепторного поля. В даній ситуації накладання зображення на еталон відбувається шляхом сумування сигналів від клітин рецепторного поля на еталонних матрицях опору або феритових сердечників. Значення сумарного сигналу відображає степінь збіжності зображення і еталона.
Область застосування методу обмежена в силу необхідності створення для кожного образу точно відтвореного еталону. При цьому зображення, що розпізнаються, повинні мати строго фіксоване положення відносно еталона. Такі системи не можуть перенавчитися для розпізнавання інших образів. Для цього потрібно формувати нові еталони, які б відповідали тим образам, яуі необхідно розпізнати в нових умовах.
Основний недолік методу заключається в тому, що кожне зображення, яке необхідно розпізнати, повинно до представлення системі пройти спеціальну обробку в маркувальному приладі. Тому даний метод не знайшов широкого застосування на практиці.
2 ОПИС МЕТОДУ РОЗПІЗНАВАННЯ РУКОПИСНИХ СИМВОЛІВ
Базовим методом ІЕІТ є метод функціонально-статистичних випробувань (МФСВ) [18, 19, 20] - непараметричний інформаційно-екстремальний метод аналізу та синтезу здатної навчатися системи керування, який ґрунтується на прямій оцінці інформаційної здатності системи за умов нечіткої компактності реалізацій образу, та обмеження навчальної вибірки, яка є прийнятною для задач контролю і керування. Метод призначено для розв'язання практичних задач контролю та управління слабо формалізованими системами і процесами шляхом автоматичної класифікації їх функціональних станів за умови невизначеності.
МФСВ окрім системних та специфічних принципів ґрунтується також на 2-х дистанційних принципах:
- максимально-дистанційному, який вимагає максимальної міжцентрової відстані між класами;
- мінімально-дистанційному, вимагає мінімальної середньої відстані реалізацій від центру свого класу:
Класом розпізнавання (образом) називається відбиття властивостей m-го функціонального стану системи розпізнавання і відношень між елементами системи. Клас розпізнавання топологічна категорія, яка задається в просторі ознак розпізнавання областю Б .
Детерміновано-статистичний підхід [21, 22] до моделювання систем вимагає завдання систем нормованих (експлуатаційних) і контрольних допусків на ОР. Нехай базовий клас, який характеризує максимальну функціональну ефективність, тобто є найбільш бажаним для розробника інформаційного забезпечення системи. Нормованим називається поле допусків , в якому значення і-ї ОР знаходиться з імовірністю або , за умови, що функціональний стан відноситься до класу . Контрольним називається поле допусків , в якому значення і-ї ОР знаходиться з імовірністю за умови, що функціональний стан відноситься до класу .
В ІЕІТ система контрольних допусків вводиться з метою рандомізації процесу прийняття рішень, оскільки для повного дослідження об'єкту контролю та управління необхідно використовувати як детерміновані, так і статистичні характеристики. Зрозуміло, що і базова (відносно класу) СКД є сталою для всієї абетки класів розпізнавання.
Реалізацією образу називається випадковий структурований бінарний вектор , де і-та координата вектора, яка приймає одиничне значення, якщо значення і-ї ОР знаходиться в полі допусків , і нульове значення, якщо не знаходиться; мінімальна кількість випробувань, яка забезпечує репрезентативність реалізацій образу.
При обґрунтуванні гіпотези компактності (чіткої, або нечіткої) реалізацій образу за геометричний центр класу приймається вершина бінарного еталонного вектору х m .
Еталонний вектор x m це математичне сподівання реалізацій класу .
Він подається у вигляді детермінованого структурованого бінарного вектора , де х m,і і-та координата вектора, яка приймає одиничне значення, якщо значення і-ї ОР знаходиться в нормованому полі допусків, і нульове значення, якщо не знаходиться.
Основною задачею етапу навчання за МФСВ є розбиття простору ознак розпызнавання за поданою навчальною матрицею на області класів розпізнавання деяким оптимальним в інформаційному сенсі способом, який забезпечує на етапі екзамену прийняття рішень з достовірністю, наближеною до максимальної асимптотичної достовірності.
Параметром функціонування називається характеристика інформаційного забезпечення, яка прямо або непрямо впливає на функціональну ефективність системи. Такими параметрами можуть бути параметри навчання, перетворення образу, впливу середовища та інші, які безпосередньо впливають на асимптотичну достовірність.
Як критерій оптимізації процесу навчання системи прийняттю рішень в рамках МФСВ застосовується статистичний інформаційний КФЕ, який є природною мірою різноманітності (або схожості) класів розпізнавання і одночасно функціоналом асимптотичних точнісних характеристик СР. При цьому важливо, щоб параметри навчання були оптимальними в інформаційному розумінні, тобто забезпечували максимальну функціональну ефективність СР, яка визначається достовірністю прийняття рішень на екзамені.
Достовірність класифікатора залежить від геометричних параметрів роздільних гіперповерхонь класів розпізнавання.
У загальному випадку, коли класи розпізнавання перетинаються, розглянемо відносний коефіцієнт нечіткої компактності реалізації образу для класу
Процес навчання полягає в мінімізації цього виразу.
В МФСВ, який ґрунтується на допущенні гіпотези компактності (чіткої або нечіткої) реалізацій образу, як наближення точної роздільної гіперповерхні для класу розглядається гіперсфера, центром якої є еталонний вектор , а радіусом кодова відстань, яка у просторі Хеммінга визначається як
де і-та координата вектора i-тa координата деякого вектора m, вершина якого знаходиться на роздільні гіперповерхні класу ; операція складання за модулем два.
Оптимальною кодовою відстанню (радіусом) між вектором і контейнером називається екстремальне значення , яке визначає максимум інформаційного КФЕ , де {d} - послідовність збільшень радіуса контейнера .
Побудова оптимальної в інформаційному сенсі РГП у вигляді гіперсфери за МФСВ зводиться до оптимізації радіуса роздільної гіперсфери dm, яка відбувається за ітераційним алгоритмом
де k змінна числа збільшень радіуса РГП; h крок збільшення.
Процедура закінчується при знаходженні екстремального значення критерію , де множина радіусів концентрованих гіперсфер, центр яких визначається вершиною еталонного вектора еталонний вектор найближчого (до ) класу .
Діаграма відображень множин на екзамені має такі відмінності від діаграм оптимізаційного навчання за МФСВ:
· зворотний зв'язок у діаграмі не містить контурів оптимізації параметрів функціонування СР, а призначенням оператора U Е є регламентація екзамену;
· замість оператора вводиться оператор Р відображення вибіркової множини X , що розпізнається, на побудоване на етапі навчання розбиття ;
· комутативне кільце утворюється між розбиттям , множиною гіпотез I | M +1| і покриттям ;
· оператор класифікації утворює композицію двох операторів: 1 : F , де F - множина функцій належності, і оператор дефазіфікації 2 : F I | M +1| , який вибирає гіпотезу за максимальним значенням функції належності.
З урахуванням наведених відмінностей діаграма відображень множин на екзамені набуває вигляду
У діаграмі (2.2.2) оператор Ф 1 відображає універсум випробувань на вибіркову множину Х, яка утворює екзаменаційну матрицю , аналогічну за структурою, процедурою та параметрами формування навчальній матриці.
Алгоритми екзамену за МФСВ можуть мати різну структуру залежно від розподілу реалізацій образу, що розпізнаються. Обов'язковою умовою їх реалізації є забезпечення однакових структурованості і параметрів формування як для навчальної, так і для екзаменаційної матриць.
Для нечіткого розбиття алгоритм екзамену за МФСВ ґрунтується на аналізі значень функції належності, яка має вигляд (2.5.1) і обчислюється для кожної реалізації, що розпізнається. Розглянемо кроки реалізації алгоритму екзамену при нечіткому розбитті:
1. Формування лічильника класів розпізнавання.
2. Формування лічильника числа реалізацій, що розпізнаються: .
4. Обчислення функції належності за виразом:
5. Порівняння: якщо j n , то виконується крок 2, інакще - крок 6.
6. Порівняння: якщо m M , то виконується крок 1, інакще - крок 7.
7. Визначення класу , до якого належить екзаменаційна реалізація, наприклад, за умови , де усереднене значення функцій належності для реалізацій класу , або видача повідомлення: «Клас не визначено», якщо . Тут с порогове значення.
3 ІНФОРМАЦІЙНЕ ТА ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ СИСТЕМИ РОЗПІЗНАВАННЯ РУКОПИСНИХ СИМВОЛІВ
При перетворенні зображення в декартових координатах, спочатку формуємо матрицю яскравості , де N , n - відповідні розміри зображення. Скануємо отриману матрицю по стовпчикам та сформуємо вектор сум різниць значень яскравості , де:
4. елементи приймають додатні значення суми різниць яскравості;
5. елементи приймають від'ємні значення суми різниць яскравості;
6. якщо значення суми різниць яскравості приймає нульове значення, то відповідні елементи та також приймають нульові значення;
Таким чином, двомірний масив значень яскравості зображення ми переводимо в вектор сум різниць значень яскравості довжини вдвічі більшої, ніж ширина зображення.
Всі модулі об'єднані в один проект Project1.dpr.
Таблиця 3.1 Основні процедури модулів Unit1.pas
Обчислення значення інформаційного критерію та точносних характеристик INFK_D1 та INFK_betta .
Завдання системи допусків як відхилення від середнього по реалізаціях класу my_k на кодову відстань sd
Формування бінарної навчальної матриці
Розбиття еталонних векторів на пари сусідніх
Заповнення масиву кодових відстаней від еталонного вектора до кожної реалізації класу my_k
Проведення екзамену в полярних координатах
Пошук геометричного центру літери в полярних координатах
Проведення екзамену в декартових координатах
Рисунок 3.8 - Графік залежності КФЕ від при паралельній оптимізації в полярних координатах для базового класу
В табл. 3.2 наведені числові значення функціонування системи розпізнавання рукописних символів при паралельно - послідовної оптимізації для кожного з класів в полярних координатах.
Таблиця 3.2 Числові значення функціонування системи розпізнавання при паралельній та послідовній оптимізації для кожного з класів в полярних координатах
З табл. 3.2 робимо висновок, що найбільше середнє значення КФЕ для трьох класів досягається, коли за базовий приймається клас .
На рис.3.10 наведено графік зміни значення критерію функціональної ефективності від зміни при паралельної оптимізації на ознаки розпізнавання в декартових координатах, коли за базових приймається клас .
Рисунок 3.10 - Графік залежності КФЕ від при паралельній оптимізації в декартових координатах для базового класу
На рис.3.11 наведено графік зміни значення критерію функціональної ефективності на кроках ітерації при послідовній оптимізації на ознаки розпізнавання в декартових координатах, коли за базових приймається клас .
Рисунок 3.11 - Графік зміни значень КФЕ на кроках ітерації при послідовній оптимізації в декартових координатах для базового класу
В табл. 3.3 наведені числові значення функціонування системи розпізнавання при паралельно - послідовної оптимізації для кожного з класів в декартових координатах.
Таблиця 3.3 Числові значення функціонування системи розпізнавання при паралельно - послідовной оптимізації для кожного з класів в декартових координатах
Після проведення паралельно - послідовної оптимізації системи контрольних допусків на ознаки розпізнавання та вибору базового класу, проводимо етап навчання при перетворенні в полярних та декартових координатах.
Аналіз результатів етапу паралельно - послідовної оптимізації показав, що за базовий потрібно приймати клас , так як в цьому випадку досягається максимальне середнє значення КФЕ для трьох класів, що дає можливість на етапі екзамену з більшою достовірністю розпізнавати класи.
В табл. 3.4 наведені параметри функціонування системи розпізнавання на етапі навчання для кожного з класів в полярних та декартових координатах, коли за базовий почергово приймається клас , та .
Результати табл. 3.4 підтверджують, що найбільше середнє значення КФЕ для трьох класів досягається, коли за базовий приймається клас .
Таблиця 3.4 Параметри функціонування системи розпізнавання в полярних та декартових координатах, коли за базові приймаються класи , , .
Після етапу навчання, проведено етап екзамену.
Питання підвищення продуктивності праці й збільшення економічної ефективності господарської діяльності пов'язані з автоматизацією процесів виробництва й керування, розвитком обчислювальної техніки, розробкою систем автоматизації проектних, дослідницьких і технологічних робіт. Тому широке поширення одержали електронно-обчислювальні машини (ЕОМ).
Широке поширення мікроелектроніки, комп'ютерів індивідуального користування, потужних засобів автоматизованої обробки тексту й графічної інформації, високо ефективних пристроїв її зберігання й пошуку дозволяють порушувати питання про вироблення техніки безпеки при роботі з комп'ютерними технологіями. Робота операторів, програмістів і просто користувачів безпосередньо зв'язана комп'ютерами, а відповідно, необхідно знати техніку безпеки при роботі з ними. Вивчення й рішення проблем, пов'язаних із забезпеченням здорових і безпечних умов, у яких протікає праця людини - одне з найбільше важливих завдань у розробці нових технологій і систем виробництва .
Міністерство праці й соціальної політики України й Комітет з нагляду за охороною праці України затвердили наказом від 10 лютого 1999 року "Правила охорони праці при експлуатації електронно-обчислювальних машин". Ці правила встановлюють вимоги безпеки й санітарно-гігієнічні вимоги до встаткування робочих місць користувачів ЕОМ і працівників, що виконують обслуговування, ремонт, налагодження ЕОМ і роботи із застосуванням ЕОМ.
У даному розділі дипломного проекту аналізується приміщення на предмет виконання основних нормативних вимог до робочих приміщень, оснащених комп'ютерами.
У розглянутому приміщенні розташовано 3 робочих місця, кожне з яких обладнане комп'ютером.
План приміщення представлений на рис. 4.1. Приміщення розташоване в цегляному будинку на п'ятому поверсі, загальна площа приміщення 18 м 2 , висота 3,2 м. Всі дані занесені до таблиці4.1.
Таблиця 4.1 Характеристики приміщення
Огляд інтелектуальних принципів організації процесу розпізнавання символів. Розробка системи безклавіатурного введення документів у комп’ютер. Опис і обґрунтування проектних рішень; розрахунки і експериментальні дані; впровадження системи в експлуатацію. дипломная работа [182,5 K], добавлен 07.05.2012
Алгоритм оптичного розпізнавання образів. Універсальність таких алгоритмів. Технологічність, зручність у процесі використання програми. Два класи алгоритмів розпізнавання друкованих символів: шрифтовий та безшрифтовий. технологія підготовки бази даних. реферат [24,5 K], добавлен 19.11.2008
Сегментація і нормалізація зображень. Основні функціональні можливості та режими роботи комплексу розпізнавання письмового тексту. Розробка комплексу оптичного розпізнавання символів. Шрифтові та безшрифтові алгоритми розпізнавання друкованого тексту. курсовая работа [1,7 M], добавлен 19.05.2014
Історія досліджень, пов’язаних з розпізнаванням образів, його практичне використання. Методи розпізнавання образів: метод перебору, глибокий аналіз характеристик образу, використання штучних нейронних мереж. Характерні риси й типи завдань розпізнавання. реферат [61,7 K], добавлен 23.12.2013
Розробка, дослідження та реалізація методів вирішення завдань аналізу, розпізнавання і оцінювання зображень як один із провідних напрямків інформатики. Класифікація та аналіз існуючих методів розпізнавання образів, переваги та недоліки їх застосування. статья [525,8 K], добавлен 19.09.2017
Актуальність сучасної системи оптичного розпізнавання символів. Призначення даних систем для автоматичного введення друкованих документів в комп'ютер. Послідовність стадій процесу введення документу в комп'ютер. Нові можливості програми FineReader 5.0. курсовая работа [4,5 M], добавлен 29.09.2010
Комп’ютерне моделювання системи сегментації та розпізнавання облич на зображеннях. Підвищення швидкодії моделювання за кольором шкіри та покращення якості розпізнавання при застосуванні робастних boosting-методів. Розробка алгоритмів функціонування. дипломная работа [1,6 M], добавлен 02.07.2014
Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д. PPT, PPTX и PDF-файлы представлены только в архивах. Рекомендуем скачать работу .

© 2000 — 2021

Інформаційний синтез системи автоматичного розпізнавання бланків документів дипломная работа. Программирование, компьютеры и кибернетика.
Эссе Как Вы Относитесь К Теории Фрейда
Контрольная работа: Налоговая политика и ее влияние на формирование доходной базы бюджета
Отчет По Учебной Практике В Прокуратуре
Реферат: Продовольственная безопасность. Скачать бесплатно и без регистрации
Сочинение Про Снег
Курсовая работа: Разработка сбалансированного пищевого рациона для пожилых людей
Курсовая Работа По Теории Государства И Права Механизм Государства
Контрольная работа: Таємниця Туринської плащаниці
Реферат Про Альберта Эйнштейна
Контрольная работа по теме Электрические фильтры
Курсовая работа по теме Финансовые ресурсы РФ, Республики Татарстан
Доклад: «Умный» МИР
Курсовая работа: Разработка цепной передачи для механического привода ленточного транспортера
Практическое задание по теме Анализ рекламы
Судебные Приставы Реферат
Реферат: Сфера услуг. Скачать бесплатно и без регистрации
Контрольная работа по теме Системный анализ предприятия ОАО АВТОВАЗ
Вместе Мы Сила Сочинение
Реферат На Тему Заимствование В Русском Языке
Сочинение Рассуждение В Рождественскую Ночь
Изучение эффективности парного трейдинга - Маркетинг, реклама и торговля курсовая работа
Особливості зовнішніх торгівельних відносин у Полтавській області - Международные отношения и мировая экономика статья
Формування оптимальної структури маркетингових каналів - Маркетинг, реклама и торговля курсовая работа

Інформаційний синтез системи автоматичного розпізнавання бланків документів - Программирование, компьютеры и кибернетика дипломная работа

Report Page