Phát hiện các mẫu có lợi ích cao trên cơ sở dữ liệu lượng hóa
Khai thác các mẫu (itemset, chuỗi) phổ biến trên các cơ sở dữ liệu (CSDL) nhị phân truyền thống là một bài toán khai thác dữ liệu quan trọng và có nhiều ứng dụng. Tuy nhiên, nó có thể sinh thiếu nhiều mẫu thú vị (ví dụ, các mẫu hoặc hành vi bất thường tuy hiếm nhưng thú vị hoặc có ích). Vì vậy, các...
Đã lưu trong:
Tác giả chính: | |
---|---|
Định dạng: | Research report |
Ngôn ngữ: | Vietnamese |
Được phát hành: |
Trường Đại học Đà Lạt
2024
|
Truy cập trực tuyến: | https://scholar.dlu.edu.vn/handle/123456789/3454 |
Các nhãn: |
Thêm thẻ
Không có thẻ, Là người đầu tiên thẻ bản ghi này!
|
Thư viện lưu trữ: | Thư viện Trường Đại học Đà Lạt |
---|
Tóm tắt: | Khai thác các mẫu (itemset, chuỗi) phổ biến trên các cơ sở dữ liệu (CSDL) nhị phân truyền thống là một bài toán khai thác dữ liệu quan trọng và có nhiều ứng dụng. Tuy nhiên, nó có thể sinh thiếu nhiều mẫu thú vị (ví dụ, các mẫu hoặc hành vi bất thường tuy hiếm nhưng thú vị hoặc có ích). Vì vậy, các tiêu chuẩn khác cần được xem xét nhằm đánh giá độ quan trọng/lợi ích của các mẫu. Ngoài ra, các thuật toán khai thác các mẫu phổ biến truyền thống bỏ qua nhiều CSDL thực tế chứa các thông tin lượng hóa (CSDLLH) hữu dụng như số lượng mua và lợi ích đơn vị của các mặt hàng. Đề tài này nhằm giải quyết bài toán mở rộng khai thác các mẫu có lợi ích cao (KTMLIC) trong các CSDLLH. Khác với độ hỗ trợ, độ đo lợi ích dùng trong KTMLIC không thỏa tính chất Apriori (AP). Do đó, chúng tôi sẽ đưa ra các chặn trên mới thỏa AP hoặc yếu hơn AP nhằm khai thác hiệu quả tập các mẫu lợi ích cao (MLIC). Tuy nhiên, tập MLIC thường rất lớn, điều này gây khó khăn cho người dùng trong việc phân tích MLIC và cũng làm giảm đáng kể thành tích của các thuật toán khai thác MLIC. Để giải quyết vấn đề này, chúng tôi sẽ thiết kế các thuật toán khai thác nhanh các biểu diễn súc tích của MLIC như các mẫu tối đại, đóng và sinh. Các tập này thường có kích thước bé và cho phép phục hồi thông tin của MLIC. Cuối cùng, chúng tôi sẽ đề nghị một phương pháp phục hồi hiệu quả nhằm giải bài toán KTMLIC với các ràng buộc. |
---|