Hiển thị kết quả theo dõi các chủ đề trên tạp chí điện tử với thuật toán rút trích từ khóa và cơ sở dữ liệu đồ thị
Đề tài do ThS. Võ Thị Hồng Thắm thực hiện với mục tiêu xây dựng hệ thống nền phục vụ cho các nghiên cứu liên quan đến xử lý văn bản. Bên cạnh đó, xây dựng hệ thống hướng đến việc hỗ trợ người dùng khai thác thông tin từ các trang báo điện tử Việt Nam, cho phép tải, phân tích và thể hiện kết quả hiển thị các bài báo, rút trích các từ khóa quan trọng trong bài báo, giúp người dùng tiết kiệm thời gian và công sức.
Hiện nay, có hơn 20 tờ báo trực tuyến ở Việt Nam. Để tìm được thông tin mình mong muốn cũng như nắm bắt các chủ đề mình quan tâm, người dùng phải mất rất nhiều thời gian để đọc và tóm tắt thông tin. Do đó, phần một của đề tài là thực hiện xây dựng một hệ thống tự động thu thập các bài báo từ các tờ báo trực tuyến, quản lý và khai thác thông tin từ các bài báo đó để giúp người dùng tìm chủ đề mà họ quan tâm một cách nhanh chóng đồng thời hỗ trợ hiển thị trực quan, giúp người dùng dễ dàng theo dõi sự tiến triển của các chủ đề đó.
Phần hai giới thiệu về các mô hình liên quan được áp dụng cho hệ thống bao gồm năm nội dung: Luồng văn bản, Bộ thu thập thông tin từ web, Khai thác văn bản, Rút trích từ khóa và Cơ sở dữ liệu đồ thị. Vấn đề về tiền xử lý có liên quan đến công việc tách từ và loại bỏ từ.
Như vậy, với số lượng thông tin được các tờ báo trực tuyến cập nhật hàng ngày và yêu cầu quan trọng nhất của người đọc là tìm thông tin quan trọng có trong lượng dữ liệu khổng lồ này và tốn ít thời gian nhất có thể. Độc giả cũng có nhu cầu theo dõi thời gian và sự tiến hóa của các chủ đề quan trọng. Do đó, các bài viết được xuất bản liên tục này được mô hình hóa dưới dạng luồng văn bản. Do đó, bài toán được đặt ra ở phần ba này là làm sao thu thập các bài viết này để tạo, lưu trữ, trích xuất và hiển thị trực quan thông tin quan trọng bằng biểu đồ. Để xây dựng hệ thống này, một số khái niệm, thuật toán và phương pháp đã đề cập ở trên trong phần 2 được sử dụng, bao gồm: Thu thập dữ liệu, tách từ trong văn bản tiếng Việt, loại bỏ các từ dừng và thuật toán TF-IDF để phát hiện chủ đề (ở đây xem chủ đề quan trọng là tập từ khóa có tần số xuất hiện cao nhất), ứng dụng cơ sở dữ liệu đồ thị để hiện thị trực quan kết quả tìm kiếm. Đây hiện là một hệ thống mới tại Việt Nam và có thể dễ dàng áp dụng cho các ngôn ngữ khác.
Hình: Thủ tục xử lý luồng văn bản thông thường.
Với các kết nghiên cứu trên, hệ thống đã được xây dựng thành công gồm các mô-đun bao gồm bộ thu thập thông tin, bộ xử lý và bộ hiển thị. Ngoài ra, một mô-đun TF-IDF được lập trình bằng ngôn ngữ lập trình Python phục vụ cho việc so sánh các đầu ra của nó với các đầu ra của hệ thống được hiện thực bằng ngôn ngữ lập trình Java. Báo cáo mô tả một số kỹ thuật và công cụ được dùng để xây dựng hệ thống; các chức năng của hệ thống; thu thập dữ liệu và kết quả đầu ra; cấu trúc lưu trữ và một số truy vấn cơ sở dữ liệu; trình bày và phân tích kết quả thử nghiệm.
Phiên bản đầu tiên của hệ thống được đề xuất đã được cài đặt thành công. Bên cạnh đó, hệ thống hiện tại đã được chứng minh là một hệ thống hoạt động đúng đắn thông qua một quá trình thử nghiệm và đánh giá. Có thể nói, hệ thống này đã hoàn toàn đáp ứng được kỳ vọng ban đầu đã đặt ra. Có thể nói rằng đây là một nền tảng quan trọng, một bệ phóng để nghiên cứu sâu hơn. Hơn nữa, dữ liệu thu thập từ các trang báo trực tuyến có thể phục vụ cho nhiều ứng dụng khác, chẳng hạn như tóm tắt tự động tin tức, tổng hợp tự động tin tức, phát hiện sự kiện, phát hiện chủ đề nóng, vv…
Tuy nhiên, để phục vụ tốt nhất nhu cầu của người dùng, hệ thống này cần thêm các tính năng xử lý nâng cao hơn thay vì chỉ hoạt động đúng đắn. Do đó, đây cũng là cơ hội cho các nghiên cứu sâu hơn cũng như việc triển khai các hoạt động cho một hệ thống thương mại hiệu suất cao trong tương lai bằng cách áp dụng các kỹ thuật xử lý dữ liệu nhanh để tìm các chủ đề quan trọng đáng tin cậy và tập trung vào tối ưu hóa việc lưu trữ lượng lớn dữ liệu không cần thiết để tiết kiệm thời gian. Thiết nghĩ, việc tiếp tục tìm hiểu và áp dụng thêm các kỹ thuật liên quan đến khai thác văn bản, từ đó bổ sung thêm các chức năng hữu ích hơn vào hệ thống đề xuất là hết sức cần thiết. Dù vậy, có thể nói đây là một giải pháp mang tính thương mại, hoàn toàn mới ở Việt Nam, xử lý được Tiếng Việt và có thể chuyển đổi ngôn ngữ đơn giản.
Có thể thấy, công trình nghiên cứu đã xây dựng được hệ thống với 03 thành phần chính: mô-đun thu thập dữ liệu hàng ngày từ các trang tạp chí điện tử (báo điện tử) VnExpress và VietnamNet, tổ chức thành 06 chuyên mục là Thời sự, Công nghệ, Giáo dục, Pháp luật, Khoa học, Thế giới; Xây dựng mô-đun xử lý dữ liệu bao gồm các bước tiền xử lý và xử lý rút trích từ khóa quan trọng bằng kỹ thuật rút trích từ khóa TF_IDF; Xây dựng mô-đun hiển thị một số kết quả cho phép tương tác với người dùng.
Đóng góp chính của công trình này là phát triển một hệ thống thu thập, lưu trữ, khai thác và hiển thị trực quan luồng dòng văn bản các bài báo đăng tải hàng ngày từ các báo điện tử Việt Nam. Hệ thống được đề xuất này hoàn toàn mới và cần thiết ở Việt Nam và có thể dễ dàng chuyển đổi để áp dụng cho các ngôn ngữ khác tại các quốc gia khác. Đóng góp của nghiên cứu trong việc phát triển hệ thống này chỉ tập trung rút trích danh sách từ khóa quan trọng của bài báo, chuyên mục.
Thy Diễm