Xây dựng công cụ tóm tắt văn bản tiếng việt tự động
Trong bài báo này chúng tôi đề xuất mô hình tóm tắt văn bản tiếng Việt tự động. Văn bản được biểu diễn bằng đồ thị: đỉnh biểu diễn một câu trong văn bản; các cạnh nối biểu diễn sự tương tự về ngữ nghĩa giữa hai đỉnh (câu). Trọng số của cạnh là giá trị tương tự của hai câu được tính bởi 1 trong 3 phư...
Đã lưu trong:
Những tác giả chính: | , |
---|---|
Định dạng: | Bài viết |
Ngôn ngữ: | Vietnamese |
Được phát hành: |
Trường Đại học Đà Lạt
2012
|
Những chủ đề: | |
Truy cập trực tuyến: | https://scholar.dlu.edu.vn/thuvienso/handle/DLU123456789/33644 |
Các nhãn: |
Thêm thẻ
Không có thẻ, Là người đầu tiên thẻ bản ghi này!
|
Thư viện lưu trữ: | Thư viện Trường Đại học Đà Lạt |
---|
Tóm tắt: | Trong bài báo này chúng tôi đề xuất mô hình tóm tắt văn bản tiếng Việt tự động. Văn bản được biểu diễn bằng đồ thị: đỉnh biểu diễn một câu trong văn bản; các cạnh nối biểu diễn sự tương tự về ngữ nghĩa giữa hai đỉnh (câu). Trọng số của cạnh là giá trị tương tự của hai câu được tính bởi 1 trong 3 phương pháp Jaro, Contrast Model và Jaccard. Độ quan trọng của đỉnh (câu) được tính bởi thuật toán PageRank. Để kiểm chứng tính chính xác của mô hình đề xuất, chúng tôi so sánh kết quả tóm tắt tự động với kết quả tóm tắt của chuyên gia vì thế dữ liệu thực nghiệm sử dụng là khá khiêm tốn (gồm 5 văn bản thuộc các chủ đề khác nhau). Kết quả tóm tắt của hệ thống có độ tin cậy cao vì được đánh giá bởi tập dữ liệu đánh giá được tổng hợp từ 12 nhà khoa học uy tín. Kết quả cho thấy việc kết hợp thuật toán xếp hạng PageRank với các phép đo Contrast và Jaccard cho kết quả tóm tắt tốt nhất (51.5 và 52%). |
---|