Xây dựng công cụ tóm tắt văn bản tiếng việt tự động

Trong bài báo này chúng tôi đề xuất mô hình tóm tắt văn bản tiếng Việt tự động. Văn bản được biểu diễn bằng đồ thị: đỉnh biểu diễn một câu trong văn bản; các cạnh nối biểu diễn sự tương tự về ngữ nghĩa giữa hai đỉnh (câu). Trọng số của cạnh là giá trị tương tự của hai câu được tính bởi 1 trong 3 phư...

詳細記述

保存先:
書誌詳細
主要な著者: Nguyễn, Quang Dũng, Trương, Quốc Định
フォーマット: Bài viết
言語:Vietnamese
出版事項: Trường Đại học Đà Lạt 2012
主題:
オンライン・アクセス:https://scholar.dlu.edu.vn/thuvienso/handle/DLU123456789/33644
タグ: タグ追加
タグなし, このレコードへの初めてのタグを付けませんか!
Thư viện lưu trữ: Thư viện Trường Đại học Đà Lạt
その他の書誌記述
要約:Trong bài báo này chúng tôi đề xuất mô hình tóm tắt văn bản tiếng Việt tự động. Văn bản được biểu diễn bằng đồ thị: đỉnh biểu diễn một câu trong văn bản; các cạnh nối biểu diễn sự tương tự về ngữ nghĩa giữa hai đỉnh (câu). Trọng số của cạnh là giá trị tương tự của hai câu được tính bởi 1 trong 3 phương pháp Jaro, Contrast Model và Jaccard. Độ quan trọng của đỉnh (câu) được tính bởi thuật toán PageRank. Để kiểm chứng tính chính xác của mô hình đề xuất, chúng tôi so sánh kết quả tóm tắt tự động với kết quả tóm tắt của chuyên gia vì thế dữ liệu thực nghiệm sử dụng là khá khiêm tốn (gồm 5 văn bản thuộc các chủ đề khác nhau). Kết quả tóm tắt của hệ thống có độ tin cậy cao vì được đánh giá bởi tập dữ liệu đánh giá được tổng hợp từ 12 nhà khoa học uy tín. Kết quả cho thấy việc kết hợp thuật toán xếp hạng PageRank với các phép đo Contrast và Jaccard cho kết quả tóm tắt tốt nhất (51.5 và 52%).