Phát hiện các mẫu có lợi ích cao trên cơ sở dữ liệu lượng hóa

Khai thác các mẫu (itemset, chuỗi) phổ biến trên các cơ sở dữ liệu (CSDL) nhị phân truyền thống là một bài toán khai thác dữ liệu quan trọng và có nhiều ứng dụng. Tuy nhiên, nó có thể sinh thiếu nhiều mẫu thú vị (ví dụ, các mẫu hoặc hành vi bất thường tuy hiếm nhưng thú vị hoặc có ích). Vì vậy, các...

Mô tả đầy đủ

Đã lưu trong:
Chi tiết về thư mục
Tác giả chính: Trương, Chí Tín
Định dạng: Research report
Ngôn ngữ:Vietnamese
Được phát hành: Trường Đại học Đà Lạt 2024
Truy cập trực tuyến:https://scholar.dlu.edu.vn/handle/123456789/3454
Các nhãn: Thêm thẻ
Không có thẻ, Là người đầu tiên thẻ bản ghi này!
Thư viện lưu trữ: Thư viện Trường Đại học Đà Lạt
id oai:scholar.dlu.edu.vn:123456789-3454
record_format dspace
spelling oai:scholar.dlu.edu.vn:123456789-34542024-04-24T03:56:07Z Phát hiện các mẫu có lợi ích cao trên cơ sở dữ liệu lượng hóa Trương, Chí Tín Khai thác các mẫu (itemset, chuỗi) phổ biến trên các cơ sở dữ liệu (CSDL) nhị phân truyền thống là một bài toán khai thác dữ liệu quan trọng và có nhiều ứng dụng. Tuy nhiên, nó có thể sinh thiếu nhiều mẫu thú vị (ví dụ, các mẫu hoặc hành vi bất thường tuy hiếm nhưng thú vị hoặc có ích). Vì vậy, các tiêu chuẩn khác cần được xem xét nhằm đánh giá độ quan trọng/lợi ích của các mẫu. Ngoài ra, các thuật toán khai thác các mẫu phổ biến truyền thống bỏ qua nhiều CSDL thực tế chứa các thông tin lượng hóa (CSDLLH) hữu dụng như số lượng mua và lợi ích đơn vị của các mặt hàng. Đề tài này nhằm giải quyết bài toán mở rộng khai thác các mẫu có lợi ích cao (KTMLIC) trong các CSDLLH. Khác với độ hỗ trợ, độ đo lợi ích dùng trong KTMLIC không thỏa tính chất Apriori (AP). Do đó, chúng tôi sẽ đưa ra các chặn trên mới thỏa AP hoặc yếu hơn AP nhằm khai thác hiệu quả tập các mẫu lợi ích cao (MLIC). Tuy nhiên, tập MLIC thường rất lớn, điều này gây khó khăn cho người dùng trong việc phân tích MLIC và cũng làm giảm đáng kể thành tích của các thuật toán khai thác MLIC. Để giải quyết vấn đề này, chúng tôi sẽ thiết kế các thuật toán khai thác nhanh các biểu diễn súc tích của MLIC như các mẫu tối đại, đóng và sinh. Các tập này thường có kích thước bé và cho phép phục hồi thông tin của MLIC. Cuối cùng, chúng tôi sẽ đề nghị một phương pháp phục hồi hiệu quả nhằm giải bài toán KTMLIC với các ràng buộc. 2024-04-24T03:55:59Z 2024-04-24T03:55:59Z 2020 2018 2020 Research report Đề tài Nafosted Khoa học tự nhiên https://scholar.dlu.edu.vn/handle/123456789/3454 102.05-2017.300 vi 174/QĐ-HĐQL-NAFOSTED Ngày 14/11/2020 860 Trường Đại học Đà Lạt
institution Thư viện Trường Đại học Đà Lạt
collection Thư viện số
language Vietnamese
description Khai thác các mẫu (itemset, chuỗi) phổ biến trên các cơ sở dữ liệu (CSDL) nhị phân truyền thống là một bài toán khai thác dữ liệu quan trọng và có nhiều ứng dụng. Tuy nhiên, nó có thể sinh thiếu nhiều mẫu thú vị (ví dụ, các mẫu hoặc hành vi bất thường tuy hiếm nhưng thú vị hoặc có ích). Vì vậy, các tiêu chuẩn khác cần được xem xét nhằm đánh giá độ quan trọng/lợi ích của các mẫu. Ngoài ra, các thuật toán khai thác các mẫu phổ biến truyền thống bỏ qua nhiều CSDL thực tế chứa các thông tin lượng hóa (CSDLLH) hữu dụng như số lượng mua và lợi ích đơn vị của các mặt hàng. Đề tài này nhằm giải quyết bài toán mở rộng khai thác các mẫu có lợi ích cao (KTMLIC) trong các CSDLLH. Khác với độ hỗ trợ, độ đo lợi ích dùng trong KTMLIC không thỏa tính chất Apriori (AP). Do đó, chúng tôi sẽ đưa ra các chặn trên mới thỏa AP hoặc yếu hơn AP nhằm khai thác hiệu quả tập các mẫu lợi ích cao (MLIC). Tuy nhiên, tập MLIC thường rất lớn, điều này gây khó khăn cho người dùng trong việc phân tích MLIC và cũng làm giảm đáng kể thành tích của các thuật toán khai thác MLIC. Để giải quyết vấn đề này, chúng tôi sẽ thiết kế các thuật toán khai thác nhanh các biểu diễn súc tích của MLIC như các mẫu tối đại, đóng và sinh. Các tập này thường có kích thước bé và cho phép phục hồi thông tin của MLIC. Cuối cùng, chúng tôi sẽ đề nghị một phương pháp phục hồi hiệu quả nhằm giải bài toán KTMLIC với các ràng buộc.
format Research report
author Trương, Chí Tín
spellingShingle Trương, Chí Tín
Phát hiện các mẫu có lợi ích cao trên cơ sở dữ liệu lượng hóa
author_facet Trương, Chí Tín
author_sort Trương, Chí Tín
title Phát hiện các mẫu có lợi ích cao trên cơ sở dữ liệu lượng hóa
title_short Phát hiện các mẫu có lợi ích cao trên cơ sở dữ liệu lượng hóa
title_full Phát hiện các mẫu có lợi ích cao trên cơ sở dữ liệu lượng hóa
title_fullStr Phát hiện các mẫu có lợi ích cao trên cơ sở dữ liệu lượng hóa
title_full_unstemmed Phát hiện các mẫu có lợi ích cao trên cơ sở dữ liệu lượng hóa
title_sort phát hiện các mẫu có lợi ích cao trên cơ sở dữ liệu lượng hóa
publisher Trường Đại học Đà Lạt
publishDate 2024
url https://scholar.dlu.edu.vn/handle/123456789/3454
_version_ 1798257044464074752