Tên nhiệm vụ: Cải tiến mô hình phân tích văn bản dựa trên mạng GCN
1. Cấp quản lý nhiệm vụ: cơ sở
2. Tổ chức chủ trì: Trường Đại học Thủ Dầu Một
3. Chủ nhiệm nhiệm vụ: TS Võ Thị Hồng Thắm
4. Mục tiêu nghiên cứu:
5. Tóm tắt:
- Trước hết, đối với mỗi tài liệu trong tập dữ liệu văn bản, đề tải áp dụng một cách tiếp cận mới để học biểu diễn đặc trưng văn bản toàn cục, có thể nắm bắt hiệu quả các biểu diễn tuần tự ngữ nghĩa nhiều cấp của một tài liệu nhất định, được gọi là: Chiến lược hợp nhất biểu diễn đặc trưng là MultTextEmb. Tài liệu được biểu diễn đặc trưng bằng cách nhúng từ với Word2Vec, nhúng tuần tự ngữ nghĩa ẩn của các câu với BERT [6] và nhúng cấu trúc toàn cục của tài liệu dưới dạng cấu trúc dựa trên đồ thị từ GOW thông qua mạng GCN.
- Tiếp theo, để tạo ra bàn biểu diễn thống nhất cuối cùng của mỗi tài liệu văn bản, đề tài áp dụng cơ chế hợp nhất nhúng tùy chỉnh thông qua hàm tổng hợp phí tuyến tính. Hàm tổng hợp đã xác định được thiết kế để đảm bảo các đặc trưng của tất cả các phương thức nhúng của tài liệu mà MultTextEmb học được và chuyển đổi chúng sang các không gian vectơ hợp nhất cụ thể. Kết quả đầu ra của bước này là tập hợp các vectơ nhúng của tài liệu cuối cùng được biểu diễn cả về tuần tự ngữ nghĩa và cấu trúc toàn cục.
- Cuối cùng, đề tài xây dựng đồ thị đầy đủ của tài liệu với tất cả các mối quan hệ từ từ và từ tài liệu cho tập dữ liệu văn bản, sau đó xếp chúng thành một tensor đồ thị. Sau đó, các phương pháp truyền tải nội bộ/ giữa các kênh được áp dụng để tổng hợp và hải hỏa thông tin giữa các đồ thị của tài liệu trong quá trình học lan truyền. Đối với mỗi bước lan truyền, vectơ nhúng nút của mỗi tài liệu được hợp nhất với vectơ nhúng dựa trên MultTextEmb tử các bước trước đó. Sau đó, trong lớp dựa trên GCN cuối cùng của quy trình này, chúng ta có thể nhận được các biểu diễn nút cuối cùng của tài liệu sau đó được cấp dữ liệu cho lớp NLP kết nối đầy đủ để thực hiện nhiệm vụ phân lớp.
6. Lĩnh vực nghiên cứu:
7. Thời gian thực hiện: 12/2021 - 03/2023
8. Kinh phí phê duyệt: 249,565,500