Phát hiện các mẫu có lợi ích cao trên cơ sở dữ liệu lượng hóa

Khai thác các mẫu (itemset, chuỗi) phổ biến trên các cơ sở dữ liệu (CSDL) nhị phân truyền thống là một bài toán khai thác dữ liệu quan trọng và có nhiều ứng dụng. Tuy nhiên, nó có thể sinh thiếu nhiều mẫu thú vị (ví dụ, các mẫu hoặc hành vi bất thường tuy hiếm nhưng thú vị hoặc có ích). Vì vậy, các...

Mô tả đầy đủ

Đã lưu trong:
Chi tiết về thư mục
Tác giả chính: Trương, Chí Tín
Định dạng: Research report
Ngôn ngữ:Vietnamese
Được phát hành: Trường Đại học Đà Lạt 2024
Truy cập trực tuyến:https://scholar.dlu.edu.vn/handle/123456789/3454
Các nhãn: Thêm thẻ
Không có thẻ, Là người đầu tiên thẻ bản ghi này!
Thư viện lưu trữ: Thư viện Trường Đại học Đà Lạt
Miêu tả
Tóm tắt:Khai thác các mẫu (itemset, chuỗi) phổ biến trên các cơ sở dữ liệu (CSDL) nhị phân truyền thống là một bài toán khai thác dữ liệu quan trọng và có nhiều ứng dụng. Tuy nhiên, nó có thể sinh thiếu nhiều mẫu thú vị (ví dụ, các mẫu hoặc hành vi bất thường tuy hiếm nhưng thú vị hoặc có ích). Vì vậy, các tiêu chuẩn khác cần được xem xét nhằm đánh giá độ quan trọng/lợi ích của các mẫu. Ngoài ra, các thuật toán khai thác các mẫu phổ biến truyền thống bỏ qua nhiều CSDL thực tế chứa các thông tin lượng hóa (CSDLLH) hữu dụng như số lượng mua và lợi ích đơn vị của các mặt hàng. Đề tài này nhằm giải quyết bài toán mở rộng khai thác các mẫu có lợi ích cao (KTMLIC) trong các CSDLLH. Khác với độ hỗ trợ, độ đo lợi ích dùng trong KTMLIC không thỏa tính chất Apriori (AP). Do đó, chúng tôi sẽ đưa ra các chặn trên mới thỏa AP hoặc yếu hơn AP nhằm khai thác hiệu quả tập các mẫu lợi ích cao (MLIC). Tuy nhiên, tập MLIC thường rất lớn, điều này gây khó khăn cho người dùng trong việc phân tích MLIC và cũng làm giảm đáng kể thành tích của các thuật toán khai thác MLIC. Để giải quyết vấn đề này, chúng tôi sẽ thiết kế các thuật toán khai thác nhanh các biểu diễn súc tích của MLIC như các mẫu tối đại, đóng và sinh. Các tập này thường có kích thước bé và cho phép phục hồi thông tin của MLIC. Cuối cùng, chúng tôi sẽ đề nghị một phương pháp phục hồi hiệu quả nhằm giải bài toán KTMLIC với các ràng buộc.