Giải quyết một số vấn đề nền tảng trong xử lý ngôn ngữ tiếng Việt với các mô hình học máy thống kê hiện đại

Tổng quan các vấn đề nghiên cứu về ngôn ngữ trong tiếng Việt và các phương pháp học máy, đồng thời nghiên cứu ứng dụng các phương pháp đó trong việc xử lý các bài toán ngôn ngữ cơ bản một cách tự động bằng máy tính. Tập trung nghiên cứu về cấu trúc âm tiết, các loại từ tiếng Việt, cấu trúc cụm danh...

Mô tả đầy đủ

Đã lưu trong:
Chi tiết về thư mục
Những tác giả chính: Nguyễn, Cẩm Tú, Nguyễn, Thu Trang, Nguyễn, Thị Hương Thảo
Định dạng: Bài viết
Ngôn ngữ:Vietnamese
Được phát hành: Đại học Quốc gia Hà Nội 2015
Những chủ đề:
Truy cập trực tuyến:https://scholar.dlu.edu.vn/thuvienso/handle/DLU123456789/56886
Các nhãn: Thêm thẻ
Không có thẻ, Là người đầu tiên thẻ bản ghi này!
Thư viện lưu trữ: Thư viện Trường Đại học Đà Lạt
Miêu tả
Tóm tắt:Tổng quan các vấn đề nghiên cứu về ngôn ngữ trong tiếng Việt và các phương pháp học máy, đồng thời nghiên cứu ứng dụng các phương pháp đó trong việc xử lý các bài toán ngôn ngữ cơ bản một cách tự động bằng máy tính. Tập trung nghiên cứu về cấu trúc âm tiết, các loại từ tiếng Việt, cấu trúc cụm danh từ và tên riêng trong tiếng Việt. Tìm hiểu về các phương pháp học máy thống kê, trong đó tập trung vào hai mô hình mới và mạnh trong việc phân lớp và phân đoạn văn bản là Conditional Random Fields (CRFs) và Support Vector Machines(SVMs) để giải quyết các bài toán xử lý tiếng Việt ở mức cao. Thu thập và xây dựng một bộ dữ liệu trung bình (khoảng 8000 câu) cho bài toán tách câu, tách từ tiếng Việt và một phần bài toán nhận thực thể định danh trong tiếng Việt. Giới thiệu chi tiết về các thực nghiệm và phương pháp tách từ tiếng Việt với CRFs và SVMs. Xây dựng công cụ tách từ tiếng Việt trong Java dựa trên CRFs.