Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê
Hội thảo Khoa học Quốc gia về Công nghệ thông tin và Ứng dụng trong các lĩnh vực lần thứ 10 (CITA-2021); Chủ đề: Xử lý ảnh và ngôn ngữ tự nhiên; từ trang 185-190.
Bewaard in:
| Hoofdauteurs: | , , |
|---|---|
| Formaat: | Bài viết |
| Taal: | Vietnamese |
| Gepubliceerd in: |
Nhà xuất bản Đà Nẵng
2021
|
| Onderwerpen: | |
| Online toegang: | http://elib.vku.udn.vn/handle/123456789/1862 |
| Tags: |
Voeg label toe
Geen labels, Wees de eerste die dit record labelt!
|
| Thư viện lưu trữ: | Trường Đại học Công nghệ Thông tin và Truyền thông Việt Hàn - Đại học Đà Nẵng |
|---|
| id |
oai:elib.vku.udn.vn:123456789-1862 |
|---|---|
| record_format |
dspace |
| spelling |
oai:elib.vku.udn.vn:123456789-18622023-09-25T09:58:52Z Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê Nguyễn, Quốc Dũng Phan, Nguyệt Minh Phan, Nguyệt Thuần OCR hậu xử lý văn bản mô hình ngôn ngữ n-gram mô hình lỗi Hội thảo Khoa học Quốc gia về Công nghệ thông tin và Ứng dụng trong các lĩnh vực lần thứ 10 (CITA-2021); Chủ đề: Xử lý ảnh và ngôn ngữ tự nhiên; từ trang 185-190. Nhận dạng ký tự quang học (OCR) là công cụ chuyển đổi văn bản giấy thành văn bản số. Tuy nhiên, văn bản số OCR thường chứa nhiều lỗi do các hạn chế trong kỹ thuật nhận dạng hoặc do chất lượng văn bản giấy thấp. Trong bài báo này, chúng tôi trình bày một mô hình ngôn ngữ thống kê sử dụng cho sửa lỗi văn bản OCR. Mô hình này kết hợp các mô hình n-gram và mô hình lỗi OCR, trong đó mô hình n-gram dựa trên thống kê các ngữ cảnh n-gram và mô hình lỗi OCR dựa trên thống kê các mẫu ký tự sửa lỗi. Mô hình được đánh giá trên một tập dữ liệu văn bản OCR tiếng Việt tiêu chuẩn và cho kết quả sửa lỗi chính xác và hiệu quả. 2021-12-06T03:34:40Z 2021-12-06T03:34:40Z 2021 Working Paper 978-604-84-5998-7 http://elib.vku.udn.vn/handle/123456789/1862 vi application/pdf Nhà xuất bản Đà Nẵng |
| institution |
Trường Đại học Công nghệ Thông tin và Truyền thông Việt Hàn - Đại học Đà Nẵng |
| collection |
DSpace |
| language |
Vietnamese |
| topic |
OCR hậu xử lý văn bản mô hình ngôn ngữ n-gram mô hình lỗi |
| spellingShingle |
OCR hậu xử lý văn bản mô hình ngôn ngữ n-gram mô hình lỗi Nguyễn, Quốc Dũng Phan, Nguyệt Minh Phan, Nguyệt Thuần Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê |
| description |
Hội thảo Khoa học Quốc gia về Công nghệ thông tin và Ứng dụng trong các lĩnh vực lần thứ 10 (CITA-2021); Chủ đề: Xử lý ảnh và ngôn ngữ tự nhiên; từ trang 185-190. |
| format |
Working Paper |
| author |
Nguyễn, Quốc Dũng Phan, Nguyệt Minh Phan, Nguyệt Thuần |
| author_facet |
Nguyễn, Quốc Dũng Phan, Nguyệt Minh Phan, Nguyệt Thuần |
| author_sort |
Nguyễn, Quốc Dũng |
| title |
Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê |
| title_short |
Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê |
| title_full |
Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê |
| title_fullStr |
Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê |
| title_full_unstemmed |
Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê |
| title_sort |
sửa lỗi văn bản ocr tiếng việt sử dụng mô hình ngôn ngữ thống kê |
| publisher |
Nhà xuất bản Đà Nẵng |
| publishDate |
2021 |
| url |
http://elib.vku.udn.vn/handle/123456789/1862 |
| _version_ |
1849204688471195648 |