Tóm tắt văn bản tiếng Việt: Rút gọn câu và phát hiện quan hệ ngữ nghĩa

Nghiên cứu đặc thù ngữ pháp tiếng Việt liên quan tới bài toán phân tích phụ thuộc. Nghiên cứu các phương pháp học máy có thể vận dụng hiệu quả trong quá trình xây dựng mô hình phân tích phụ thuộc: perceptron đa nhãn, SVMs, MIRA. Nghiên cứu và thử nghiệm trên tiến...

Mô tả đầy đủ

Đã lưu trong:
Chi tiết về thư mục
Những tác giả chính: Hoàng, Thị Điệp, Nguyễn, Việt Cường, Nguyễn, Lê Minh
Định dạng: Bài viết
Ngôn ngữ:Vietnamese
Được phát hành: Đại học Quốc gia Hà Nội 2015
Những chủ đề:
Truy cập trực tuyến:https://scholar.dlu.edu.vn/thuvienso/handle/DLU123456789/57580
Các nhãn: Thêm thẻ
Không có thẻ, Là người đầu tiên thẻ bản ghi này!
Thư viện lưu trữ: Thư viện Trường Đại học Đà Lạt
Miêu tả
Tóm tắt:Nghiên cứu đặc thù ngữ pháp tiếng Việt liên quan tới bài toán phân tích phụ thuộc. Nghiên cứu các phương pháp học máy có thể vận dụng hiệu quả trong quá trình xây dựng mô hình phân tích phụ thuộc: perceptron đa nhãn, SVMs, MIRA. Nghiên cứu và thử nghiệm trên tiếng Việt các phương pháp phân tích phụ thuộc hiện có của tiếng Anh, phân theo hai nhóm: nhóm dựa trên đồ thị và nhóm dựa trên chuyển tiếp. Nghiên cứu hiệu chỉnh đàu ra của phương pháp MST cho phân tích phụ thuộc. Nghiên cứu hướng vận dụng cây phân tích phụ thuộc giải quyết bài toán rút gọn câu. Nghiên cứu phương pháp tự động sinh mục lục tuyến tính cho văn bản và thử nghiệm trên ngữ liệu tiếng Anh. Kết quả ứng dụng: Kho ngữ liệu phân tích cú pháp thuộc 450 câu tiếng Việt được chú giải nhiều thông tin và thiết kế theo chuẩn của hội thảo quốc tế CoNLL-X 2006. Kèm theo đó là bài tổng kết Bộ nhãn từ loại và bộ nhãn quan hệ phụ thuộc giữa các từ của tiếng Việt là một tài liệu cô đọng hướng dẫn làm dữ liệu và các môđun trợ giúp quá trình xây dựng kho giữ liệu do chúng tôi cài đặt. Các công cụ được đề tài sưu tầm và khai thác cho tiếng Việt : Hệ thống MaltParser, MSTParser, DeSR; phần mềm DgAnnotator. Môđun jTextTiling thực hiện phân đoạn văn bản sử dụng mối liên kết từ vựng. Kết quả là một văn bản được phân đoạn tuyến tính. Công cụ này được triển khai trên ngôn ngữ Java dựa trên mã nguồn của TextTiling viết bằng C của Marti Hearst, đồng thời bổ sung một số đề xuất. Kho ngữ liệu tiếng Anh trong báo cáo "Generic Topic Segmentation of Document Texts" để thử nghiệm và đánh giá bộ sinh mục lục tuyến tính tự động.