Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: http://212.1.86.13:8080/xmlui/handle/123456789/7106
Назва: Покращення розпізнавання структурованого тексту нейронною мережею YOLO
Автори: Зінченко, А. Ю.
Хайдуров, В. В.
Ключові слова: YOLO
OCR
розпізнавання тексту
нейронні мережі
обробка зображень
Дата публікації: 12-лют-2025
Видавництво: Університет митної справи та фінансів
Бібліографічний опис: Зінченко А. Ю., Хайдуров В. В. Покращення розпізнавання структурованого тексту нейронною мережею YOLO. Системи та технології. № 2 (68). 2024. С. 23-31.
Короткий огляд (реферат): У даній роботі розглядається підхід до покращення розпізнавання структурованого тексту за допомогою інтеграції нейронної мережі YOLO (You Only Look Once) та технології OCR (Optical Character Recognition). Метою роботи є дослідження можливостей підвищення ефективності розпізнавання структурованого тексту шляхом інтеграції моделі YOLO з технологією OCR, а також створення автоматизованої інформаційної системи для виявлення текстових об’єктів та їх подальшого розпізнавання, що дозволяє підвищити ефективність обробки структурованого тексту. Авторами запропоновано архітектуру багатопотокової моделі, що використовує рекурентні та дво- та тривимірні згорткові нейронні мережі. Розроблене програмне забезпечення, що реалізує алгоритми обчислення оптичного потоку та частотного аналізу символів, написане на мові Python із використанням бібліотек Ultralytics, Pytesseract, Python Image Library та фреймворку веб-додатків Flask. Інтерфейс реалізовано за допомогою HTML, CSS та JavaScript, а для зберігання даних обрано базу даних MySQL. Головною особливістю системи є інтеграція моделі YOLO та OCR для забезпечення точного та швидкого розпізнавання текстових об’єктів на зображеннях. Розроблена автоматизована інформаційна система є сервіс-орієнтованою, що дозволяє користувачам завантажувати інвойси, зберігати їхні дані та отримувати аналітику щодо витрат і взаємодії з клієнтами. Система включає нейронну мережу YOLOv10, натреновану на 500 зображеннях інвойсів, REST API для користувацької взаємодії, інтерфейс для завантаження інвойсів, а також об’єкти бази даних MySQL для зберігання інформації про користувачів та їхні інвойси. Архітектура побудована за шаблоном MVC (Model-View-Controller): модель обробляє дані та бізнес-логіку, контролер зв’язує модель і представлення, а саме представлення демонструє дані користувачам. Така структура забезпечує чітке розмежування функцій між компонентами. Додатково система містить сервісні шари для бізнес-логіки та маршрутизації, а також використовує інструмент Blueprint фреймворку Flask для поділу додатка на менші компоненти та організації URL-адрес. Аналіз результатів розпізнавання тексту показав високу точність OCR, зокрема для структурованого тексту, хоча зустрічаються недоліки, такі як порушення початкової структури тексту. Однак ці недоліки можуть бути мінімізовані шляхом використання мережа YOLO разом з технологією OCR.
URI (Уніфікований ідентифікатор ресурсу): http://212.1.86.13:8080/xmlui/handle/123456789/7106
ISSN: 2521-6643
Розташовується у зібраннях:2024/2(68)

Файли цього матеріалу:
Файл Опис РозмірФормат 
155-Article Text-292-1-10-20241217.pdf632,39 kBAdobe PDFПереглянути/Відкрити


Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.