a. Tên nhiệm vụ: Phân tích ý kiến người dùng bằng các phương pháp học sâu
c. Chủ nhiệm nhiệm vụ: TS Bùi Thanh Hùng
- Đề tài tập trung nghiên cứu giải quyết bài toán thu thập và phân tích ý kiến người dùng áp dụng cho tiếng Việt. Đề tài thu thập dữ liệu bình luận về các món ăn, quán ăn, nhà hàng từ foody.vn. Sau đó xử lý dữ liệu, xây dựng mô hình phân tích ý kiến người dùng bằng 3 phương pháp học sâu, từ đó đề xuất mô hình tối ưu nhất.
đ. Kết quả nghiên cứu (tóm tắt)
Đây là nhiệm vụ khoa học và công nghệ cấp cơ sở của TS. Bùi Thanh Hùng, trường Đại học Thủ Dầu Một thực hiện với mục tiêu tập trung nghiên cứu giải quyết bài toán thu thập và phân tích ý kiến người dùng áp dụng cho tiếng Việt. Đề tài thu thập dữ liệu bình luận về các món ăn, quán ăn, nhà hàng từ foody.vn. Sau đó xử lý dữ liệu, xây dựng mô hình phân tích ý kiến người dùng bằng 3 phương pháp học sâu, từ đó đề xuất mô hình tối ưu nhất
Cụ thể, trong đề tài này đi sâu vào 3 mô hình cụ thể: CNN, LSTM và CNNLSTM để phân tích ý kiến người dùng trên cơ sở bộ dữ liệu bằng ngôn ngữ tiếng Việt. Sau thời gian chạy thực nghiệm, phân tích, đánh giá. Tác giả nhận thấy phương pháp học sâu kết hợp 2 mô hình CNN-LSTM đạt hiệu quả tốt. Qua đó, kết quả phân tích sẽ đánh giá ý kiến người dùng ở 2 lớp tiêu cực và tích cực thông qua giao diện trang web.
Theo dữ liệu thống kê từ trang WeareSocial và Hootsuite, tính đến tháng 1- 2019, Việt Nam đang có số dân là 96,96 triệu, trong đó có đến 64 triệu người đang dùng Internet, chiếm 66%. Trong đó, có 62 triệu người dùng sử dụng mạng xã hội, số người sử dụng mạng xã hội trên điện thoại di động lên đến 58 triệu. Đây là nguồn tài nguyên vô cùng phong phú và đa dạng để các nhà kinh tế và nhà khoa học khai thác phục vụ nghiên cứu cho lĩnh vực của mình.
Theo đó, đề tài đã giới thiệu những kiến thức nền tảng sẽ được bao gồm trong đề tài. Cụ thể, tác giả đã giới thiệu các kiến thức nền của học máy (mạng nơ ron nhân tạo, kỹ thuật lan truyền ngược), các mô hình học sâu được huấn luyện (CNN, LSTM, CNN-LSTM). Tổng quan về phân tích ý kiến người dùng, cũng như hướng tiếp cận và đề xuất nghiên cứu.
Kết quả cho thấy, nếu CNN có khả năng trích xuất thông tin địa phương giữa các từ lân cận nhưng có thể không nắm bắt được sự phụ thuộc vào khoảng cách dài ngắn của văn bản (không chính xác đối với các cụm từ có khoảng cách xa). Thì LSTM có thể giải quyết hạn chế này bằng cách mô hình hóa các văn bản theo thứ tự qua các câu. Vì lý do trên, tác giả đã đề xuất sử dụng các phương pháp học sâu, trong đó chú ý tới phương pháp học sâu kết hợp CNN-LSTM cho bài toán phân tích ý kiến người dùng.
Khi ta dùng CNN, ta sẽ chia dữ liệu ra nhiều nhóm đặc trưng gần nhau, và CNN sẽ tổng hợp rút trích từng nhóm ấy ra đặc trưng tổng quát của chúng. Kết quả cuối cùng sẽ được dự đoán với ý nghĩa là đã kèm theo thông tin liên kết giữa từng nhóm, thay vì là từng đặc trưng riêng lẻ. Khi ta dùng LSTM, ta sẽ coi dữ liệu được chia ra nhiều điểm thời gian khác nhau, và LSTM sẽ đọc dữ liệu theo từng thời điểm ấy. Kết quả cuối cùng sẽ được dự đoán với ý nghĩa là đã kèm theo thông tin về trình tự thời gian, thay vì chỉ đơn giản là toàn bộ điểm dữ liệu trên cùng một lúc….
Cuối cùng, tác giả đã trình bày thực nghiệm, các bước tiền xử lý dữ liệu, huấn luyện mô hình, các phương pháp đánh giá mô hình và so sánh các kết quả được kiểm tra của từng mô hình, với từng hướng tổ chức tập dữ liệu khác nhau, từ đó rút ra được các nhận xét về các mô hình đã cài đặt và lựa chọn mô hình tối ưu trực quan hóa kết quả.
Do đề tài tập trung vào làm thử nghiệm của 3 mô hình, mỗi mô hình đi 2 hướng tiếp cận dữ liệu. Cho nên mỗi lần chỉnh sửa tham số sẽ phải huấn luyện khá lâu. Điều này có nghĩa tham số chọn được sẽ chọn tương đối nhanh để có thể lấy kết quả sớm, cho nên nó sẽ không quá tối ưu cho từng mô hình riêng. Các mô hình với kết quả phân tích ra chỉ ở mức độ chung tổng quát của các bình luận, chứ chưa phân tích ra ở mức độ từng khía cạnh riêng (aspect-level). Điều này dẫn tới các bình luận nửa tích cực nửa tiêu cực sẽ khó lấy ra kết quả chính xác…
Qua nghiên cứu, đề tài cũng đã xây dựng trang web trực quan các mô hình để đưa ra kết quả phân tích ý kiến người dùng. Bên cạnh đó, trang web cũng cung cấp số liệu thống kê hiệu suất các mô hình. Bên cạnh việc phân tích ý kiến người dùng bản được ứng dụng trong hàng loạt các vấn đề như: Quản trị thương hiệu doanh nghiệp, thương hiệu sản phẩm, quản trị quan hệ khách hàng, khảo sát ý kiến xã hội học, phân tích trạng thái tâm lý con người... Đề tài cũng áp dụng hiệu quả trong việc điều hành của chính phủ, chính quyền địa phương thông qua các trang mạng xã hội, trang web do chính phủ, chính quyền xây dựng.
e. Thời gian nghiên cứu:
- Thời gian bắt đầu: 12/2018
- Thời gian kết thúc: 12/2019
f. Kinh phí thực hiện: 39.558.000 đồng
(Có thể tìm đọc toàn văn Báo cáo kết quả nghiên cứu tại Trung tâm Thông tin và Thống kê khoa học và công nghệ)