a. Tên luận văn: Nhận diện tên riêng tiếng Việt bằng phương pháp học sâu
b. Họ và tên cá nhân thực hiện luận văn: Nguyễn Anh Dũng
c. Tên cơ quan cử đi học: Trường THPT Phước Vĩnh
d. Tên viện - trường thực hiện luận văn: Trường Đại học Thủ Dầu Một Bình Dương
đ. Mục tiêu nghiên cứu: Xây dựng một hệ thống nhận diện tên riêng tiếng Việt sử dụng phương pháp học sâu mạng nơ ron ngắn dài song song BiLSTM của kiến trúc học sâu Deeplearning với sự hỗ trợ của ma trận được huấn luyện sẵn trước của tiếng Việt và các công cụ trích xuất đặc trưng.
Ngoài ra, tác giả còn xây dựng một ứng dụng Web để trực quan hóa việc phân tích dữ liệu, phân tích kết quả và nhận diện được tên riêng của một văn bản nhập vào từ trang web.
e. Kết quả thực hiện (tóm tắt)
Trong những năm gần đây, kỹ thuật công nghệ phần cứng có sự phát triển vượt bậc tạo nền tảng cho các thuật toán Trí tuệ nhân tạo nói chung và mạng nơ ron nhân tạo nói riêng phát huy được tốc độ và tính ưu việt của nó. Các phương pháp học máy xử lý văn bản cũng được cải tiến, phát triển kéo theo và Deeplearning (học sâu) là một trong những phương pháp tối ưu để giải quyết các bài toán xử lí văn bản với nguồn dữ liệu lớn như bài toán nhận diện tên riêng.
Tác giả Nguyễn Anh Dũng đã thực hiện đề tài “Nhận diện tên riêng tiếng Việt bằng phương pháp học sâu” với mục tiêu xây dựng một hệ thống nhận diện tên riêng tiếng Việt sử dụng phương pháp học sâu mạng nơ ron ngắn dài song song BiLSTM của kiến trúc học sâu Deeplearning với sự hỗ trợ của ma trận được huấn luyện sẵn trước của tiếng Việt và các công cụ trích xuất đặc trưng. Ngoài ra, tác giả còn xây dựng một ứng dụng Web để trực quan hóa việc phân tích dữ liệu, phân tích kết quả và nhận diện được tên riêng của một văn bản nhập vào từ trang web.
Luận văn dựa trên những nghiên cứu trước đây để đề xuất nghiên cứu và phát triển một hệ thống nhận diện tên riêng cho tiếng Việt (ViNER) bằng cách kết hợp các đặc trưng cú pháp tự động với các từ nhúng được huấn luyện sẵn làm đầu vào cho Bộ nhớ ngắn dài hai chiều (BiLSTM). Tác giả huấn luyện hệ thống này trên tập dữ liệu VLSP 2016. Bộ dữ liệu này gồm 3 tập dữ liệu huấn luyện, phê chuẩn và kiểm tra. Mỗi tập dữ liệu gồm 4 cột: Từ hoặc từ ghép, POS, CHUNK và TAG. Sau khi huấn luyện và đánh giá thực nghiệm hệ thống trên nhiều khía cạnh khác nhau bằng Độ đo chính xác (Accuracy), tôi nhận thấy hệ thống kết hợp các đặc trưng cú pháp tự động với các từ nhúng được huấn luyện sẵn làm đầu vào cho Bộ nhớ ngắn dài hai chiều (BiLSTM) cho kết quả cao nhất đạt 92,06%.
Hệ thống nhận diện tên riêng tiếng Việt của tác có thể cung cấp thông tin hữu ích cho các ứng dụng xử lý ngôn ngữ tự nhiên khác như tóm tắt văn bản, máy tìm kiếm, dịch máy, trích xuất thông tin và trả lời câu hỏi tự động… Để hoàn thành luận văn này, tác giả đã kế thừa, tổng hợp và phát triển dựa trên các nghiên cứu trước đây.
Nghiên cứu về nhận dạng tên riêng tiếng Việt còn hạn chế nên kết quả của luận văn sẽ là một nghiên cứu có thể làm tài liệu tham khảo cho các hướng phát triển sau này. Trích chọn đặc trưng văn bản tiếng Việt kết hợp từ nhúng, thực nghiệm tìm ra phương pháp học sâu phù hợp, hiệu quả cho bài toán nhận diện tên riêng tiếng Việt.
Luận văn đã đánh giá được hiệu suất của phương pháp bằng cách thực nghiệm hệ thống trên các khía cạnh khác nhau. Xây dựng được ứng dụng web để trực quan hóa các tương tác với người dùng khi ngời dùng nhập văn bản cần nhận dạng các tên riêng và phân tích trực quan các dữ liệu, kết quả.
f. Năm tốt nghiệp: 2019
(Có thể tìm đọc toàn văn Báo cáo kết quả nghiên cứu luận văn tại Trung tâm Thông tin và Thống kê khoa học và công nghệ).