Xây dựng ngữ liệu song ngữ Việt-K'Ho

Ngữ liệu song ngữ là dữ liệu văn bản của hai ngôn ngữ được dịch tương ứng 1-1 về mặt ngữ nghĩa. Đây là nguồn dữ liệu hữu ích trong xử lý ngôn ngữ tự nhiên, đặc biệt là dịch máy thống kê. Do sự giới hạn của kích thước nguồn dữ liệu từ điển mà cần thiết phải mở rộng được từ điển bằng cách thu thập thê...

Mô tả đầy đủ

Đã lưu trong:
Chi tiết về thư mục
Những tác giả chính: La, Quốc Thắng, Đoàn, Minh Khuê, Nguyễn, Thị Lương, Trần, Ngô Như Khánh, Hoàng, Minh Tiến
Định dạng: Conference paper
Ngôn ngữ:Vietnamese
Được phát hành: Nhà Xuất bản Đà Nẵng 2022
Những chủ đề:
Truy cập trực tuyến:http://scholar.dlu.edu.vn/handle/123456789/1015
Các nhãn: Thêm thẻ
Không có thẻ, Là người đầu tiên thẻ bản ghi này!
Thư viện lưu trữ: Thư viện Trường Đại học Đà Lạt
id oai:scholar.dlu.edu.vn:123456789-1015
record_format dspace
institution Thư viện Trường Đại học Đà Lạt
collection Thư viện số
language Vietnamese
topic Gióng câu
Gióng từ
Mô hình BERT
Mô hình IBM
Song ngữ
Tách câu
Tách từ
spellingShingle Gióng câu
Gióng từ
Mô hình BERT
Mô hình IBM
Song ngữ
Tách câu
Tách từ
La, Quốc Thắng
Đoàn, Minh Khuê
Nguyễn, Thị Lương
Trần, Ngô Như Khánh
Hoàng, Minh Tiến
Xây dựng ngữ liệu song ngữ Việt-K'Ho
description Ngữ liệu song ngữ là dữ liệu văn bản của hai ngôn ngữ được dịch tương ứng 1-1 về mặt ngữ nghĩa. Đây là nguồn dữ liệu hữu ích trong xử lý ngôn ngữ tự nhiên, đặc biệt là dịch máy thống kê. Do sự giới hạn của kích thước nguồn dữ liệu từ điển mà cần thiết phải mở rộng được từ điển bằng cách thu thập thêm các nguồn dữ liệu khác. Nghiên cứu này giới thiệu một quy trình xử lý và tổng hợp dữ liệu từ điển Việt - K'Ho từ nhiều nguồn khác nhau sử dụng phương pháp gióng từ trên văn bản song ngữ nhằm trích xuất các cặp từ song ngữ có mối quan hệ dịch. Kết quả thực nghiệm cho thấy chương trình gióng từ dựa trên mô hình IBM hiệu quả hơn chương trình dựa trên mô hình BERT với thời gian thực thi nhanh hơn.
format Conference paper
author La, Quốc Thắng
Đoàn, Minh Khuê
Nguyễn, Thị Lương
Trần, Ngô Như Khánh
Hoàng, Minh Tiến
author_facet La, Quốc Thắng
Đoàn, Minh Khuê
Nguyễn, Thị Lương
Trần, Ngô Như Khánh
Hoàng, Minh Tiến
author_sort La, Quốc Thắng
title Xây dựng ngữ liệu song ngữ Việt-K'Ho
title_short Xây dựng ngữ liệu song ngữ Việt-K'Ho
title_full Xây dựng ngữ liệu song ngữ Việt-K'Ho
title_fullStr Xây dựng ngữ liệu song ngữ Việt-K'Ho
title_full_unstemmed Xây dựng ngữ liệu song ngữ Việt-K'Ho
title_sort xây dựng ngữ liệu song ngữ việt-k'ho
publisher Nhà Xuất bản Đà Nẵng
publishDate 2022
url http://scholar.dlu.edu.vn/handle/123456789/1015
_version_ 1768305916498673664
spelling oai:scholar.dlu.edu.vn:123456789-10152022-11-28T08:19:40Z Xây dựng ngữ liệu song ngữ Việt-K'Ho La, Quốc Thắng Đoàn, Minh Khuê Nguyễn, Thị Lương Trần, Ngô Như Khánh Hoàng, Minh Tiến Gióng câu Gióng từ Mô hình BERT Mô hình IBM Song ngữ Tách câu Tách từ Ngữ liệu song ngữ là dữ liệu văn bản của hai ngôn ngữ được dịch tương ứng 1-1 về mặt ngữ nghĩa. Đây là nguồn dữ liệu hữu ích trong xử lý ngôn ngữ tự nhiên, đặc biệt là dịch máy thống kê. Do sự giới hạn của kích thước nguồn dữ liệu từ điển mà cần thiết phải mở rộng được từ điển bằng cách thu thập thêm các nguồn dữ liệu khác. Nghiên cứu này giới thiệu một quy trình xử lý và tổng hợp dữ liệu từ điển Việt - K'Ho từ nhiều nguồn khác nhau sử dụng phương pháp gióng từ trên văn bản song ngữ nhằm trích xuất các cặp từ song ngữ có mối quan hệ dịch. Kết quả thực nghiệm cho thấy chương trình gióng từ dựa trên mô hình IBM hiệu quả hơn chương trình dựa trên mô hình BERT với thời gian thực thi nhanh hơn. A bilingual corpus is a collection of texts of two languages translated 1-1 seman-tically. It is a valuable data source in natural language processing, especially sta-tistical machine translation. Due to the limitation of the size of the dictionary data source, it is necessary to augment the dictionary by collecting additional data sources. This study introduces a process of processing and aggregating Vietnam-ese-K'Ho dictionary data from various sources using word alignment on bilingual text to extract bilingual word pairs with translation relationships. The experi-mental results showed that the IBM model-based word aligner was more effec-tive than the BERT model-based aligner with faster execution time. 21 201-210 2022-09-15T00:27:09Z 2022-09-15T00:27:09Z 2022 Conference paper Bài báo đăng trên KYHT trong nước (có ISBN) http://scholar.dlu.edu.vn/handle/123456789/1015 vi Hội thảo Khoa học Quốc gia CITA 2021 - Công nghệ Thông tin và Ứng dụng trong các lĩnh vực lần thứ 11 978-604-84-6711-1 Tổng cục Thống kê, Kết quả toàn bộ Tổng Điều tra Dân số và Nhà ở năm 2019, Nhà Xuất bản Thống kê, 2020. Đ. Điền and L. N. Minh, "Ứng dụng Ngữ liệu Song ngữ Anh-Việt trong Giảng dạy Ngôn ngữ," Hội thảo Liên ngành NNH Ứng dụng & Giảng dạy Ngôn ngữ, pp. 559-567, 11/2015. A. Santos, "A survey on parallel corpora alignment," Proceedings of MI-Star, pp. 117-128, 2011. M. Bartłomiejczyk, E. Gumul and D. Koržinek, "EP-Poland: Building A Bilingual Parallel Corpus For Interpreting Research," Gema Online Journal of Language Studies, pp. 110-126, 2022. L. Lowphansirikul, C. Polpanumas, A. Rutherford and S. Nutanong, "scb-mt-en-th-2020: A Large English-Thai Parallel Corpus," CoRR, 2020. C. Park, Y. Oh, J. Choi, D. Kim and H. Lim, "Toward High Quality Parallel Corpus Using Monolingual Corpus," in The 10th International Conference on Convergence Technology (ICCT 2020), 2020. M. Trinh, P. Tran and N. Tran, "Collecting Chinese-Vietnamese Texts From Bilingual Websites," 2018 5th NAFOSTED Conference on Information and Computer Science (NICS), pp. 260-264, 2018. D. N. Chuong and P. Seresangtakul, "Semi-Automatic Word-Aligned Tool for Thai-Vietnamese Parallel Corpus Construction," in 2019 16th International Joint Conference on Computer Science and Software Engineering (JCSSE), 2019. H. Phê, V. X. Lương and H. T. T. Linh, Từ điển Tiếng Việt, Nhà xuất bản Đà Nẵng, 2020. F. J. Och and H. Ney, "Improved Statistical Alignment Models," in Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics, Hong Kong, 2000. C. Dyer, V. Chahuneau and N. A. Smith, "A Simple, Fast, and Effective Reparameterization of IBM Model 2," in Proc. of NAACL, 2013. R. Östling and J. Tiedemann, "Efficient Word Alignment with Markov Chain Monte Carlo," The Prague Bulletin of Mathematical Linguistics, vol. 106, 2016. S. Ker and J. Chang, "A Class-based Approach to Word Alignment," Computational Linguistics, vol. 23, 2002. A. Tamura, T. Watanabe and E. Sumita, "Recurrent Neural Networks for Word Alignment Model," in 52nd Annual Meeting of the Association for Computational Linguistics, ACL 2014 - Proceedings of the Conference, 2014. T. Alkhouli, G. Bretschner and H. Ney, "On The Alignment Problem In Multi-Head Attention-Based Neural Machine Translation," in Proceedings of the Third Conference on Machine Translation: Research Papers, Brussels, Belgium, 2018. Z.-Y. Dou and G. Neubig, "Word Alignment by Fine-tuning Embeddings on Parallel Corpora," CoRR, vol. abs/2101.08231, pp. 2112-2128, 2021. M. Cường, "Sẽ có báo song ngữ toàn bộ tiếng dân tộc thiểu số," BÁO ĐIỆN TỬ THỂ THAO & VĂN HÓA - TTXVN, 22 January 2013. [Online]. Available: https://thethaovanhoa.vn/the-gioi/se-co-bao-song-ngu-toan-bo-tieng-dan-toc-thieu-so-n20130122190703807.htm. [Accessed 22 September 2021]. TTXVN, "Báo ảnh Dân tộc và Miền núi," Thông tấn xã Việt Nam, [Online]. Available: https://baoanhdantocmiennui.xembao.vn/. Natural Language Toolkit (nltk.org), "Source code for nltk.tokenize.punkt," [Online]. Available: https://www.nltk.org/_modules/nltk/tokenize/punkt.html. [Accessed 22 September 2021]. Explosion, "Linguistic Features," Explosion, [Online]. Available: https://spacy.io/usage/linguistic-features. [Accessed 22 September 2021]. M. Kay and M. Röscheisen, "Text-Translation Alignment," Computational Linguistics, vol. 19, pp. 121-142, 1993. P. F. Brown, J. C. Lai and R. L. Mercer, "Aligning Sentences in Parallel Corpora," in 29th Annual Meeting of the Association for Computational Linguistics, Berkeley, California, USA, 06/1991. W. A. Gale and K. W. Church, "A Program for Aligning Sentences in Bilingual Corpora," Computational Linguistics, vol. 19, no. 1, pp. 75-102, 1993. R. C. Moore, "Fast and accurate sentence alignment of bilingual corpora," in Conference of the Association for Machine Translation in the Americas, 135-144, 2002. S. Chen, "Aligning Sentences In Bilingual Corpora Using Lexical Information," Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics, 05/2002. M. Simard and P. Plamondon, "Bilingual sentence alignment: Balancing robustness and accuracy," Machine Translation, vol. 13, no. 1, pp. 59-80, 1998. R. Sennrich and M. Volk, "MT-based sentence alignment for OCR-generated parallel texts," The Ninth Conference of the Association for Machine Translation in the Americas (AMTA 2010), 2010. B. Thompson and P. Koehn, "Vecalign: Improved Sentence Alignment in Linear Time and Space," in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019. Q. H. Ngo and W. Winiwarter, "Building an English-Vietnamese Bilingual Corpus for Machine Translation," in 2012 International Conference on Asian Language Processing, 2012. S. Bird, E. Loper and E. Klein, Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit, California: O'Reilly Media Inc., 2009. M. Honnibal, I. Montani, S. Van Landeghem and A. Boyd, "spaCy: Industrial-strength Natural Language Processing in Python," 2020. T. Vu, D. Q. Nguyen, D. Q. Nguyen, M. Dras and M. Johnson, "VnCoreNLP: A Vietnamese Natural Language Processing Toolkit," in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations, 2018. T. T. Viet, "Python Vietnamese Toolkit - PyVi," Python Software Foundation, 2022. M. J. Sabet, P. Dufter and H. Schütze, "SimAlign: High Quality Word Alignments without Parallel Training Data," CoRR, vol. abs/2004.08728, 2020. J. Devlin, M.-W. Chang, K. Lee and K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minnesota, 2019. R. Pryzant, Y. Chung, D. Jurafsky and D. Britz, "Jesc: Japanese-english subtitle corpus," CoRR, vol. abs/1710.10639, 2017. M. M. Zin, T. Racharak and N. M. Le, "Construct-Extract: An Effective Model for Building Bilingual Corpus to Improve English-Myanmar Machine Translation," in ICAART (2), 2021. S. Jindal, V. Goyal and J. Singh, "Building English-Punjabi Parallel corpus for Machine Translation," International Journal of Computer Applications, vol. 180, pp. 26-29, 2017. Nhà Xuất bản Đà Nẵng Đà Nẵng