Xây dựng ngữ liệu song ngữ Việt-K'Ho
Ngữ liệu song ngữ là dữ liệu văn bản của hai ngôn ngữ được dịch tương ứng 1-1 về mặt ngữ nghĩa. Đây là nguồn dữ liệu hữu ích trong xử lý ngôn ngữ tự nhiên, đặc biệt là dịch máy thống kê. Do sự giới hạn của kích thước nguồn dữ liệu từ điển mà cần thiết phải mở rộng được từ điển bằng cách thu thập thê...
Đã lưu trong:
Những tác giả chính: | , , , , |
---|---|
Định dạng: | Conference paper |
Ngôn ngữ: | Vietnamese |
Được phát hành: |
Nhà Xuất bản Đà Nẵng
2022
|
Những chủ đề: | |
Truy cập trực tuyến: | http://scholar.dlu.edu.vn/handle/123456789/1015 |
Các nhãn: |
Thêm thẻ
Không có thẻ, Là người đầu tiên thẻ bản ghi này!
|
Thư viện lưu trữ: | Thư viện Trường Đại học Đà Lạt |
---|
Tóm tắt: | Ngữ liệu song ngữ là dữ liệu văn bản của hai ngôn ngữ được dịch tương ứng 1-1 về mặt ngữ nghĩa. Đây là nguồn dữ liệu hữu ích trong xử lý ngôn ngữ tự nhiên, đặc biệt là dịch máy thống kê. Do sự giới hạn của kích thước nguồn dữ liệu từ điển mà cần thiết phải mở rộng được từ điển bằng cách thu thập thêm các nguồn dữ liệu khác. Nghiên cứu này giới thiệu một quy trình xử lý và tổng hợp dữ liệu từ điển Việt - K'Ho từ nhiều nguồn khác nhau sử dụng phương pháp gióng từ trên văn bản song ngữ nhằm trích xuất các cặp từ song ngữ có mối quan hệ dịch. Kết quả thực nghiệm cho thấy chương trình gióng từ dựa trên mô hình IBM hiệu quả hơn chương trình dựa trên mô hình BERT với thời gian thực thi nhanh hơn. |
---|