BIỂU DIỄN NGỮ CẢNH NHẰM KHỬ NHẬP NHẰNG TRONG KHAI TRIỂN CHỮ VIẾT TẮT BẰNG BỘ PHÂN LỚP NAÏVE BAYES

Chuẩn hóa văn bản là bài toán rất cần thiết trong các ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên vì văn bản đầu vào thường chứa nhiều từ không chuẩn như chữ viết tắt, chữ số và từ ngữ nước ngoài. Nghiên cứu này giải quyết vấn đề chuẩn hóa chữ viết tắt trong văn bản tiếng Việt khi có nhiều lựa ch...

Full beskrivning

Sparad:
Bibliografiska uppgifter
Huvudupphovsmän: Nguyễn, Văn Quý, Triệu, Thị Ly Ly, Ninh, Khánh Duy
Materialtyp: Artikel
Språk:Vietnamese
Publicerad: 2018
Ämnen:
Länkar:http://thuvien.cit.udn.vn//handle/123456789/94
Taggar: Lägg till en tagg
Inga taggar, Lägg till första taggen!
Thư viện lưu trữ: Trường Đại học Công nghệ Thông tin và Truyền thông Việt Hàn - Đại học Đà Nẵng
id oai:elib.vku.udn.vn:123456789-94
record_format dspace
spelling oai:elib.vku.udn.vn:123456789-942021-02-18T02:49:45Z BIỂU DIỄN NGỮ CẢNH NHẰM KHỬ NHẬP NHẰNG TRONG KHAI TRIỂN CHỮ VIẾT TẮT BẰNG BỘ PHÂN LỚP NAÏVE BAYES REPRESENTING CONTEXT FOR DISAMBIGUTION IN EXPANDING ABBREVIATIONS USING NAÏVE BAYES CLASSIFIER Nguyễn, Văn Quý Triệu, Thị Ly Ly Ninh, Khánh Duy Chuẩn hóa văn bản khai triển chữ viết tắt biểu diễn ngữ cảnh mô hình Bag-of-words mô hình Doc2Vec tiếp cận học máy bộ phân lớp Naïve Bayes Chuẩn hóa văn bản là bài toán rất cần thiết trong các ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên vì văn bản đầu vào thường chứa nhiều từ không chuẩn như chữ viết tắt, chữ số và từ ngữ nước ngoài. Nghiên cứu này giải quyết vấn đề chuẩn hóa chữ viết tắt trong văn bản tiếng Việt khi có nhiều lựa chọn để khai triển. Để khử nhập nhằng trong khai triển chữ viết tắt, phương pháp học máy với bộ phân lớp Naïve Bayes được sử dụng, trong đó thông tin ngữ cảnh của chữ viết tắt được biểu diễn bởi một trong hai mô hình: Bag-of-words (túi từ) hoặc Doc2Vec (vectơ hóa văn bản). Các thử nghiệm phân lớp trên một bộ dữ liệu chữ viết tắt do chúng tôi xây dựng cho thấy tỉ lệ khai triển đúng trung bình của hai mô hình Bag-of-words và Doc2Vec lần lượt là 86,0% và 79,7%. Kết quả thực nghiệm cũng cho thấy thông tin ngữ cảnh đóng vai trò quan trọng trong việc khử nhập nhằng khai triển chữ viết tắt 2018-12-07T05:40:49Z 2018-12-07T05:40:49Z 2016 Article http://thuvien.cit.udn.vn//handle/123456789/94 vi application/pdf
institution Trường Đại học Công nghệ Thông tin và Truyền thông Việt Hàn - Đại học Đà Nẵng
collection DSpace
language Vietnamese
topic Chuẩn hóa văn bản
khai triển chữ viết tắt
biểu diễn ngữ cảnh
mô hình Bag-of-words
mô hình Doc2Vec
tiếp cận học máy
bộ phân lớp Naïve Bayes
spellingShingle Chuẩn hóa văn bản
khai triển chữ viết tắt
biểu diễn ngữ cảnh
mô hình Bag-of-words
mô hình Doc2Vec
tiếp cận học máy
bộ phân lớp Naïve Bayes
Nguyễn, Văn Quý
Triệu, Thị Ly Ly
Ninh, Khánh Duy
BIỂU DIỄN NGỮ CẢNH NHẰM KHỬ NHẬP NHẰNG TRONG KHAI TRIỂN CHỮ VIẾT TẮT BẰNG BỘ PHÂN LỚP NAÏVE BAYES
description Chuẩn hóa văn bản là bài toán rất cần thiết trong các ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên vì văn bản đầu vào thường chứa nhiều từ không chuẩn như chữ viết tắt, chữ số và từ ngữ nước ngoài. Nghiên cứu này giải quyết vấn đề chuẩn hóa chữ viết tắt trong văn bản tiếng Việt khi có nhiều lựa chọn để khai triển. Để khử nhập nhằng trong khai triển chữ viết tắt, phương pháp học máy với bộ phân lớp Naïve Bayes được sử dụng, trong đó thông tin ngữ cảnh của chữ viết tắt được biểu diễn bởi một trong hai mô hình: Bag-of-words (túi từ) hoặc Doc2Vec (vectơ hóa văn bản). Các thử nghiệm phân lớp trên một bộ dữ liệu chữ viết tắt do chúng tôi xây dựng cho thấy tỉ lệ khai triển đúng trung bình của hai mô hình Bag-of-words và Doc2Vec lần lượt là 86,0% và 79,7%. Kết quả thực nghiệm cũng cho thấy thông tin ngữ cảnh đóng vai trò quan trọng trong việc khử nhập nhằng khai triển chữ viết tắt
format Article
author Nguyễn, Văn Quý
Triệu, Thị Ly Ly
Ninh, Khánh Duy
author_facet Nguyễn, Văn Quý
Triệu, Thị Ly Ly
Ninh, Khánh Duy
author_sort Nguyễn, Văn Quý
title BIỂU DIỄN NGỮ CẢNH NHẰM KHỬ NHẬP NHẰNG TRONG KHAI TRIỂN CHỮ VIẾT TẮT BẰNG BỘ PHÂN LỚP NAÏVE BAYES
title_short BIỂU DIỄN NGỮ CẢNH NHẰM KHỬ NHẬP NHẰNG TRONG KHAI TRIỂN CHỮ VIẾT TẮT BẰNG BỘ PHÂN LỚP NAÏVE BAYES
title_full BIỂU DIỄN NGỮ CẢNH NHẰM KHỬ NHẬP NHẰNG TRONG KHAI TRIỂN CHỮ VIẾT TẮT BẰNG BỘ PHÂN LỚP NAÏVE BAYES
title_fullStr BIỂU DIỄN NGỮ CẢNH NHẰM KHỬ NHẬP NHẰNG TRONG KHAI TRIỂN CHỮ VIẾT TẮT BẰNG BỘ PHÂN LỚP NAÏVE BAYES
title_full_unstemmed BIỂU DIỄN NGỮ CẢNH NHẰM KHỬ NHẬP NHẰNG TRONG KHAI TRIỂN CHỮ VIẾT TẮT BẰNG BỘ PHÂN LỚP NAÏVE BAYES
title_sort biểu diễn ngữ cảnh nhằm khử nhập nhằng trong khai triển chữ viết tắt bằng bộ phân lớp naïve bayes
publishDate 2018
url http://thuvien.cit.udn.vn//handle/123456789/94
_version_ 1849204781194674176