a/ Tên nhiệm vụ: Nghiên cứu xây dựng hệ thống hỗ trợ chọn lọc thông tin về tỉnh Bình Dương trên báo mạng
b/ Tổ chức chủ trì nhiệm vụ: Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Tp. HCM
c/ Họ và tên chủ nhiệm nhiệm vụ: PGS.TS Đỗ Văn Nhơn và cá nhân tham gia chính:
1. ThS. Huỳnh Thị Thanh Hương
2. CN. Hồ Long Vân
3. CN. Lâm Hàn Vũ
4. CN. Lê Bảo Trung
d/ Mục tiêu của nhiệm vụ: Nghiên cứu giải pháp công nghệ thông tin xây dựng ứng dụng máy tính giúp cho Sở Thông tin và Truyền thông thu thập, xử lý nhanh chóng các tin/bài của báo chí nói về tỉnh Bình Dương; phục vụ sự chỉ đạo, điều hành của lãnh đạo tỉnh Bình Dương.
đ/ Kết quả thực hiện nhiệm vụ tóm tắt:
I. Đặt vấn đề:
Báo chí và truyền thông ngày nay đã trở thành thành phần không thể thiếu trong việc thỏa mãn nhu cầu thông tin của mỗi cá nhân và tổ chức, cung cấp và phản ánh kịp thời các vấn đề, sự kiện đặt biệt diễn ra xung quanh ta. Chính sự ra đời và phát triển nhanh chóng của Internet đã thay đổi mọi mặt, mọi ngành, mọi lĩnh vực của cuộc sống, trong đó có báo chí, mà cụ thể đó là sự ra đời và phát triển của một loại hình báo chí mới - báo điện tử. Báo điện tử có nhiều lợi thế so với báo in như khả năng lan truyền, truyền tải thông tin nhanh, tích hợp đa phương tiện (chữ viết, âm thanh, hình ảnh...)... và hiện nay, với sự phát triển mạnh của công nghệ kết nối, một số lượng lớn báo điện tử ra đời, gây ra hiện tượng tràn ngập thông tin, điều này làm khó khăn trong công tác quản lý nội dung tin bài của các cơ quan chức năng. Nhất là công tác quản lý về lĩnh vực báo chí - xuất bản.
Nhu cầu tổng hợp, thống kê tin bài và các nhu cầu khác liên quan đến việc xử lý nội dung ngữ nghĩa tin bài đã được rất nhiều cơ quan quản lý về lĩnh vực báo chí, xuất bản tại các tỉnh thành quan tâm, trong đó có tỉnh Bình Dương. Việc làm thế nào để tổng hợp nhanh chóng các thông tin có liên quan đến tỉnh Bình Dương được đăng tải trên các báo điện tử, dự báo trước sự ảnh hưởng của các thông tin này và báo cáo kịp thời cho Lãnh đạo là một nhu cầu rất cấp thiết.
II. Kết quả thực hiện
Tổng quan
Triển khai đề tài, nhóm thực hiện nghiên cứu các lý thuyết cơ bản, làm cơ sở và tiền đề để phát triển đề tài, bao gồm các khái niệm tổng quan về cách thức thu nhập dữ liệu từ internet dựa trên module Web Crawler, tìm hiểu hệ thống tìm kiếm thông tin trên internet bao gồm cấu trúc, thành phần cơ bản của hệ thống, nguyên lý hoạt động, cách tổ chức thông tin thu thập, từ đó xây dựng hệ thống thu thập và tổ chức phục vụ cho đặc thù riêng của đề tài. Đồng thời tiếp cận khái niệm Web ngữ nghĩa, khái niệm Ontology và xu hướng tìm kiếm theo ngữ nghĩa dựa trên Ontology để cài đặt những chức năng chọn lọc và tìm kiếm thông tin theo ngữ nghĩa.
Mô hình biểu diễn và tổ chức lưu trữ dữ liệu thông tin - ngữ nghĩa
Trong phần này, nhóm nghiên cứu đã mô hình hóa cấu trúc thông tin của một trang báo điện tử; giới thiệu các mô hình Ontology biểu diễn một phần tri thức của lĩnh vực lao động - việc làm, đầu tư công - đầu tư nước ngoài; mô hình đồ thị keyphrase biểu diễn nội dung tin bài; mô hình hệ thống các trang báo và cách thức tổ chức lưu trữ kho tin bài cùng các thông tin ngữ nghĩa liên quan. Nghiên cứu các Ontology cho biểu diễn tri thức và biểu diễn ngữ nghĩa, trên cơ sở đó phát triển và xây dựng giải pháp theo mục tiêu và nhu cầu của ứng dụng thực tế đặt ra. Các phương pháp dựa trên Ontology sẽ được vận dụng một cách linh hoạt có sự phát triển để tạo ra các mô hình, các ngôn ngữ đặc tả phục vụ việc xử lý lưu trữ, tìm kiếm và khai thác theo ngữ nghĩa một các hiệu quả hơn.
Đây là những vấn đề trọng tâm trong việc xây dựng một hệ thống hỗ trợ chọn lọc thông tin về tỉnh Bình Dương trên báo mạng khi có trước một tập các địa chỉ trang báo mạng, làm thế nào để thu thập tự động các tin bài để đăng tải trên các trang báo; tổ chức phân loại, lưu trữ và quản lý tập tin, trong đó có thể quản lý được các dữ liệu, thông tin và ngữ nghĩa liên quan đến nội dung của mỗi tin bài; cũng như hỗ trợ biểu diễn và xử lý ngữ nghĩa trong tìm kiếm, chọn lọc, tổng hợp và điểm tin theo nhiều tiêu chí khác nhau.
Thiết kế xử lý và thuật giải
Dựa trên các mô hình Ontology, nhóm nghiên cứu đã tiến hành xây dựng một số thuật giải để giải quyết các vấn đề như: Thu thập và quản lý các tin bài trên các báo điện tử (thu thập tự động, bóc tách nội dung và tổ chức lưu trữ); rút trích keyphrase và xây dựng đồ thị keyphrase biểu diễn ngữ nghĩa cho một tin bài và một câu truy vấn; tìm kiếm theo ngữ nghĩa các tin bài, những tin bài được tìm kiếm không nhất thiết phải chứa chính xác từ khóa; tìm kiếm tin bài theo chủ đề cho trước; tìm kiếm liên quan đến tỉnh Bình Dương, thông tin có thể đề cập đến tỉnh Bình Dương, các địa danh, con người và các tổ chức trên địa bàn tỉnh.
Ngoài ra, nhóm thực hiện còn xây dựng bài toán điểm tin cho hệ thống. Với kho tin bài thu thập được, tập tin bài có thuộc tính thời gian đăng tải thỏa mãn yêu cầu về khoảng thời gian cần điểm tin được trích xuất, các tin không thỏa mãn sẽ được loại bỏ. Danh sách kết quả được sắp xếp và hiển thị phù hợp, thuận tiện cho người dùng sử dụng.
Ứng dụng và thử nghiệm
Hệ thống đã được thử nghiệm và ứng dụng thực tế tại Phòng Báo chí và Xuất bản - Sở Thông tin và Truyền thông tỉnh Bình Dương. Hệ thống đã đáp ứng được yêu cầu quản lý cơ bản về cấu trúc thông tin các trang báo điện tử, quản lý cơ sở dữ liệu tin bài, quản lý phân loại tin bài theo lĩnh vực; đáp ứng nhóm chức năng thu thập tin bài về mặt thời gian và có độ chính xác đến 95,47%; hỗ trợ tìm kiếm, chọn lọc thông tin trong lĩnh vực lao động - việc làm và đầu tư công - đầu tư nước ngoài; tổng hợp và trích xuất báo cáo điểm tin hàng ngày.
III. Kết luận
Sau một thời gian nghiên cứu, nhóm thực hiện đã đưa ra những kết quả khả quan, đạt được mục tiêu ban đầu. Đề tài đã đề xuất các mô hình, các giải pháp kỹ thuật thu thập tin bài từ các báo mạng, kỹ thuật tìm kiếm và chọn lọc thông tin theo nhiều tiêu chí phối hợp, trích xuất báo cáo điểm tin hàng ngày và hệ thống đã được cài đặt ứng thử nghiệm khá hoàn chỉnh. Đây là một đề tài có tính thực tiễn cao, có khả năng phát triển tiếp theo nhằm nâng cao thành quả khoa học và tính năng thông minh của hệ thống đáp ứng yêu cầu ngày càng cao của người dùng trong lĩnh vực báo chí - xuất bản.
e/ Thời gian bắt đầu và thời gian kết thúc:
- Thời gian bắt đầu: 03/2013
- Thời gian kết thúc: 8/2014
g/ Kinh phí thực hiện: 384.500.000 đồng
(Có thể tìm đọc toàn văn Báo cáo kết quả nghiên cứu tại Trung tâm Thông tin và Thống kê khoa học và công nghệ).