Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê

Hội thảo Khoa học Quốc gia về Công nghệ thông tin và Ứng dụng trong các lĩnh vực lần thứ 10 (CITA-2021); Chủ đề: Xử lý ảnh và ngôn ngữ tự nhiên; từ trang 185-190.

Shranjeno v:
Bibliografske podrobnosti
Những tác giả chính: Nguyễn, Quốc Dũng, Phan, Nguyệt Minh, Phan, Nguyệt Thuần
Format: Bài viết
Jezik:Vietnamese
Izdano: Nhà xuất bản Đà Nẵng 2021
Teme:
OCR
Online dostop:http://elib.vku.udn.vn/handle/123456789/1862
Oznake: Označite
Brez oznak, prvi označite!
Thư viện lưu trữ: Trường Đại học Công nghệ Thông tin và Truyền thông Việt Hàn - Đại học Đà Nẵng
id oai:elib.vku.udn.vn:123456789-1862
record_format dspace
spelling oai:elib.vku.udn.vn:123456789-18622023-09-25T09:58:52Z Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê Nguyễn, Quốc Dũng Phan, Nguyệt Minh Phan, Nguyệt Thuần OCR hậu xử lý văn bản mô hình ngôn ngữ n-gram mô hình lỗi Hội thảo Khoa học Quốc gia về Công nghệ thông tin và Ứng dụng trong các lĩnh vực lần thứ 10 (CITA-2021); Chủ đề: Xử lý ảnh và ngôn ngữ tự nhiên; từ trang 185-190. Nhận dạng ký tự quang học (OCR) là công cụ chuyển đổi văn bản giấy thành văn bản số. Tuy nhiên, văn bản số OCR thường chứa nhiều lỗi do các hạn chế trong kỹ thuật nhận dạng hoặc do chất lượng văn bản giấy thấp. Trong bài báo này, chúng tôi trình bày một mô hình ngôn ngữ thống kê sử dụng cho sửa lỗi văn bản OCR. Mô hình này kết hợp các mô hình n-gram và mô hình lỗi OCR, trong đó mô hình n-gram dựa trên thống kê các ngữ cảnh n-gram và mô hình lỗi OCR dựa trên thống kê các mẫu ký tự sửa lỗi. Mô hình được đánh giá trên một tập dữ liệu văn bản OCR tiếng Việt tiêu chuẩn và cho kết quả sửa lỗi chính xác và hiệu quả. 2021-12-06T03:34:40Z 2021-12-06T03:34:40Z 2021 Working Paper 978-604-84-5998-7 http://elib.vku.udn.vn/handle/123456789/1862 vi application/pdf Nhà xuất bản Đà Nẵng
institution Trường Đại học Công nghệ Thông tin và Truyền thông Việt Hàn - Đại học Đà Nẵng
collection DSpace
language Vietnamese
topic OCR
hậu xử lý văn bản
mô hình ngôn ngữ
n-gram
mô hình lỗi
spellingShingle OCR
hậu xử lý văn bản
mô hình ngôn ngữ
n-gram
mô hình lỗi
Nguyễn, Quốc Dũng
Phan, Nguyệt Minh
Phan, Nguyệt Thuần
Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê
description Hội thảo Khoa học Quốc gia về Công nghệ thông tin và Ứng dụng trong các lĩnh vực lần thứ 10 (CITA-2021); Chủ đề: Xử lý ảnh và ngôn ngữ tự nhiên; từ trang 185-190.
format Working Paper
author Nguyễn, Quốc Dũng
Phan, Nguyệt Minh
Phan, Nguyệt Thuần
author_facet Nguyễn, Quốc Dũng
Phan, Nguyệt Minh
Phan, Nguyệt Thuần
author_sort Nguyễn, Quốc Dũng
title Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê
title_short Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê
title_full Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê
title_fullStr Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê
title_full_unstemmed Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê
title_sort sửa lỗi văn bản ocr tiếng việt sử dụng mô hình ngôn ngữ thống kê
publisher Nhà xuất bản Đà Nẵng
publishDate 2021
url http://elib.vku.udn.vn/handle/123456789/1862
_version_ 1849204688471195648