a. Tên luận văn: Khai thác luật kết hợp dựa trên tập hợp liên kết phổ biến
b. Họ và tên cá nhân thực hiện luận văn: Lê Ngọc Quí
c. Tên viện, trường thực hiện luận văn: Trường Đại học Khoa học Tự nhiên thành phố Hồ Chí Minh
d. Tên đơn vị công tác: Trường THPT Nguyễn An Ninh
đ. Mục tiêu nghiên cứu: Trình bày thuật toán khai thác tập hợp liên kết phổ biến, chứng minh được độ đo phổ biến và tính đơn điệu không ảnh hưởng với nhau; nêu ra khuyết điểm trong cách tổ chức dữ liệu của tác giả và đề xuất cách tổ chức dữ liệu mới giảm bộ nhớ và thời gian thực hiện chương trình; trình bày phương pháp tối ưu thuật toán sinh luật kết hợp…
e. Kết quả thực hiện (tóm tắt)
Từ những năm đầu của thế kỷ 21, máy tính và những ứng dụng của nó đã trở nên phổ biến với con người ở mọi tầng lớp xã hội. Các ứng dụng chạy trên máy tính đã xâm nhập vào rất nhiều lĩnh vực đời sống cũng như các lĩnh vực khoa học. Việc khai thác dữ liệu từ các mạng xã hội, hay khai thác thông tin từ các cấu trúc protein, mã gene của con người đều có thể mô hình hóa trên đồ thị. Vậy vấn đề đặt cho các nhà nghiên cứu là phải tìm ra các thuật toán sao cho việc khai thác trên các đồ thị là hiệu quả nhất, ít tốn chi phí và thời gian nhất.
Từ thực trang trên, việc tìm kiếm các mẫu hay các luật kết hợp trong đồ thị là lĩnh vực đang hoạt động mạnh mẽ đối với ngành khai thác dữ liệu. Trong bối cảnh hiện nay, hầu như các công việc tập trung vào khai thác các mẫu trên đồ thị con khi các nút trên đồ thị luôn được gắn kết với nhau theo cùng một cách, gần đây đã có các nghiên cứu nhằm xác định mức độ gần nhau giữa các nút trong đồ thị cũng như khai thác các luật kết hợp của các nhãn trên nút. Từ đó sẽ có được thêm thông tin về mối tương quan và sự ảnh hưởng giữa các nhãn trên nút.
Phần trình bày trong luận văn của tác giả Lê Ngọc Quí đã ứng dụng lý thuyết về luật kết hợp đối với dữ liệu của đồ thị; trình bày thuật toán nhằm khai thác luật: “nếu có một tập hợp các nhãn xuất hiện thì có khả năng tìm được một tập hợp các nhãn khác cũng xuất hiện gần đó”. Thực nghiệm cũng chứng minh được rằng thuật toán thực hiện một cách hiệu quả và có thể tìm ra các luật mà các phương pháp khác không thực hiện được. Bên cạnh đó, tác giả cũng đề xuất một phương pháp mới để thuật toán thực hiện ít tốn chi phí về thời gian và bộ nhớ.
Kết quả, báo cáo trình bày tổng quan về bài toán khai thác luật kết hợp dựa trên tập hợp liên kết phổ biến; cơ sở lý thuyết liên quan đến bài toán, ví dụ minh họa cho các công thức trong phần lý thuyết. Bên cạnh đó, luận văn cũng trình bài thuật toán tìm tập hợp liên kết phổ biến, sự ảnh hưởng của tính đơn điệu và tính liên kết của tập hợp, nội dung chính trong chương 2 là hàm tỉa nhánh đệ qui UBC, từ đó đề xuất phương pháp để tối ưu thuật toán.
Trình bày thuật toán sinh luật kết hợp theo cách tiếp cận tự nhiên, từ đó đưa ra công thức tối ưu thuật toán, ví dụ minh họa cho, cuối cùng là trình bày thuật toán cải tiến, thực nghiệm kiểm chứng, và đưa ra kết luận và hướng phát triển trong tương lai.
g. Năm tốt nghiệp: 2018
(Có thể tìm đọc toàn văn Báo cáo kết quả nghiên cứu luận văn – luận án tại Trung tâm Thông tin và Thống kê khoa học và công nghệ).