Xây dựng ngữ liệu song ngữ Việt - K'Ho

Ngữ liệu song ngữ là dữ liệu văn bản của hai ngôn ngữ được dịch tương ứng 1-1 về mặt ngữ nghĩa. Đây là nguồn dữ liệu hữu ích trong xử lý ngôn ngữ tự nhiên, đặc biệt là dịch máy thống kê. Do sự giới hạn của kích thước nguồn dữ liệu từ điển mà cần thiết phải mở rộng được từ điển bằng cách thu thập thê...

Mô tả đầy đủ

Đã lưu trong:
Chi tiết về thư mục
Những tác giả chính: La, Quốc Thắng, Đoàn, Minh Khuê, Nguyễn, Thị Lương, Khanh, Tran Ngo Nhu, Hoàng, Minh Tiến
Định dạng: Conference paper
Ngôn ngữ:Vietnamese
Được phát hành: 2023
Những chủ đề:
Truy cập trực tuyến:https://scholar.dlu.edu.vn/handle/123456789/2042
http://elib.vku.udn.vn/handle/123456789/2307
Các nhãn: Thêm thẻ
Không có thẻ, Là người đầu tiên thẻ bản ghi này!
Thư viện lưu trữ: Thư viện Trường Đại học Đà Lạt
id oai:scholar.dlu.edu.vn:123456789-2042
record_format dspace
spelling oai:scholar.dlu.edu.vn:123456789-20422023-12-13T04:26:39Z Xây dựng ngữ liệu song ngữ Việt - K'Ho La, Quốc Thắng Đoàn, Minh Khuê Nguyễn, Thị Lương Khanh, Tran Ngo Nhu Hoàng, Minh Tiến Gióng câu Gióng từ Mô hình BERT Mô hình IBM Song ngữ Tách câu Tách từ Ngữ liệu song ngữ là dữ liệu văn bản của hai ngôn ngữ được dịch tương ứng 1-1 về mặt ngữ nghĩa. Đây là nguồn dữ liệu hữu ích trong xử lý ngôn ngữ tự nhiên, đặc biệt là dịch máy thống kê. Do sự giới hạn của kích thước nguồn dữ liệu từ điển mà cần thiết phải mở rộng được từ điển bằng cách thu thập thêm các nguồn dữ liệu khác. Nghiên cứu này giới thiệu một quy trình xử lý và tổng hợp dữ liệu từ điển Việt - K'Ho từ nhiều nguồn khác nhau sử dụng phương pháp gióng từ trên văn bản song ngữ nhằm trích xuất các cặp từ song ngữ có mối quan hệ dịch. Kết quả thực nghiệm cho thấy chương trình gióng từ dựa trên mô hình IBM hiệu quả hơn chương trình dựa trên mô hình BERT với thời gian thực thi nhanh hơn. 201-210 Khoa Công nghệ Thông tin 5 La Quốc Thắng X 2023-04-24T09:31:38Z 2023-04-24T09:31:38Z 2022-07 Conference paper Bài báo đăng trên KYHT trong nước (có ISBN) https://scholar.dlu.edu.vn/handle/123456789/2042 http://elib.vku.udn.vn/handle/123456789/2307 vi Hội thảo Khoa học Quốc gia về Công nghệ thông tin và Ứng dụng trong các lĩnh vực lần thứ 11 (CITA-2022);
institution Thư viện Trường Đại học Đà Lạt
collection Thư viện số
language Vietnamese
topic Gióng câu
Gióng từ
Mô hình BERT
Mô hình IBM
Song ngữ
Tách câu
Tách từ
spellingShingle Gióng câu
Gióng từ
Mô hình BERT
Mô hình IBM
Song ngữ
Tách câu
Tách từ
La, Quốc Thắng
Đoàn, Minh Khuê
Nguyễn, Thị Lương
Khanh, Tran Ngo Nhu
Hoàng, Minh Tiến
Xây dựng ngữ liệu song ngữ Việt - K'Ho
description Ngữ liệu song ngữ là dữ liệu văn bản của hai ngôn ngữ được dịch tương ứng 1-1 về mặt ngữ nghĩa. Đây là nguồn dữ liệu hữu ích trong xử lý ngôn ngữ tự nhiên, đặc biệt là dịch máy thống kê. Do sự giới hạn của kích thước nguồn dữ liệu từ điển mà cần thiết phải mở rộng được từ điển bằng cách thu thập thêm các nguồn dữ liệu khác. Nghiên cứu này giới thiệu một quy trình xử lý và tổng hợp dữ liệu từ điển Việt - K'Ho từ nhiều nguồn khác nhau sử dụng phương pháp gióng từ trên văn bản song ngữ nhằm trích xuất các cặp từ song ngữ có mối quan hệ dịch. Kết quả thực nghiệm cho thấy chương trình gióng từ dựa trên mô hình IBM hiệu quả hơn chương trình dựa trên mô hình BERT với thời gian thực thi nhanh hơn.
format Conference paper
author La, Quốc Thắng
Đoàn, Minh Khuê
Nguyễn, Thị Lương
Khanh, Tran Ngo Nhu
Hoàng, Minh Tiến
author_facet La, Quốc Thắng
Đoàn, Minh Khuê
Nguyễn, Thị Lương
Khanh, Tran Ngo Nhu
Hoàng, Minh Tiến
author_sort La, Quốc Thắng
title Xây dựng ngữ liệu song ngữ Việt - K'Ho
title_short Xây dựng ngữ liệu song ngữ Việt - K'Ho
title_full Xây dựng ngữ liệu song ngữ Việt - K'Ho
title_fullStr Xây dựng ngữ liệu song ngữ Việt - K'Ho
title_full_unstemmed Xây dựng ngữ liệu song ngữ Việt - K'Ho
title_sort xây dựng ngữ liệu song ngữ việt - k'ho
publishDate 2023
url https://scholar.dlu.edu.vn/handle/123456789/2042
http://elib.vku.udn.vn/handle/123456789/2307
_version_ 1785973027364667392