Ứng dụng mô hình máy học hỗ trợ định danh nấm mối ở Bình Dương
Đây là nhiệm vụ khoa học và công nghệ cấp trường của Thạc sĩ Dương Thị Kim Chi, Khoa Kỹ thuật công nghệ, trường Đại học Thủ Dầu Một với mục tiêu là nghiên cứu đề xuất một mô hình phân loại nấm mối ở Bình Dương bằng phương pháp máy học thực hiện vào năm 2019.
Nấm mối (Termitomyces spp.) là loài nấm hoang dã có thể ăn được có mùi vị rất thơm ngon và chưa trồng được trên toàn thế giới. Trên thế giới đã xác định được ít nhất có khoảng 60 loại [1] phân bố ở các quốc gia Thái Lan, Việt Nam, Trung Quốc, Ấn Độ, Negieria. Ngoài việc dùng nấm mối làm thực phẩm với hương vị thơm ngon và dinh dưỡng cao, những nghiên cứu gần đây cho thấy nấm mối còn có nhiều dược chất quý có thể dùng cho việc ngăn ngừa và điều trị bệnh như [2]: loài T.robustus, T.striatus với tác dụng chống lão hóa. microcarpus giàu dinh dưỡng chứa 40% protein và 55% carbohydrat trên trọng lượng khô β-D-glucan có khả năng ức chế tế bào ung thư; đặc biệt T.clypeatus có thể kháng trực khuẩn P.seudomonas aeruginosa và hỗ trợ điều trị bệnh thủy đậu.
Đông Nam Bộ một trong những khu vực tìm được nhiều loài nấm mối nhất trong cả nước. Nấm mối chỉ có trong tự nhiên thường được thu hoạch theo mùa vào tháng 6 đến tháng 8 và chỉ phân bố ở những nơi nhất định. Trong thời gian gần đây ,thời tiết không thuận lợi đồng thời với tình trạng ô nhiễm môi trường nên sản lượng nấm mối tự nhiên đã giảm hơn nhiều so với trước. Tuy có nhiều công dụng và có giá trị kinh tế cao, nhưng chưa có nhiều nghiên cứu về nấm mối. Các nghiên cứu về phân loại loài nấm và đánh giá độ đa dạng của nấm mối là rất cần thiết cho việc bảo tồn và hay nuôi trồng loài nấm quý hiếm này.
Việc áp dụng các giải pháp tin học cho việc giải quyết các bài toán trong sinh học đang là một xu hướng nghiên cứu liên ngành phát triển rất mạnh. Đã có rất nhiều giải pháp hỗ trợ cho việc định danh loài sinh học tại các ngân hàng gene lớn trên thế giới như BLAST, MEGA. Các giải pháp này thường dùng dữ liệu về gene hiện có kết hợp dùng các kỹ thuật tính toán đặc hiệu cho sinh học phân tử như UPGMA, Maximum Parsimony, Neighbor-Joining, và Maximum Likelihood để xây dựng cây phân loài sinh học. Nguyên tắc chung cho phương pháp này là so sánh từng trình tự của mẫu nấm mới cần định danh với các mẫu nấm đã được biết trước để tìm sự tương đồng của hai trình tự.
Các thuật toán so sánh thường sử dụng là so sánh trên toàn bộ trình tự để tìm sự tương đồng giữa toàn bộ 2 trình tự như dùng thuật toán Needleman Wunsch (bắt cặp toàn cục). Còn nếu dùng thuật toán Needleman - Wunsch thì sử dụng để bắt cặp 2 trình tự trong một đoạn của trình tự (bắt cặp cục bộ - Local Alignment). Nguyên tắc xây dựng cây phân loài theo phương pháp Neighbor - Joining có thể áp dụng cho so sánh trình tự không cần xuất phát từ một gốc. Các phương pháp phù hợp với số lượng trình tự cần so sánh nhỏ và thường sử dụng nguồn dữ liệu gene tự có của các ngân hàng gene.
Các phương pháp định danh loài mới đang được nghiên cứu là: phương pháp học máy với thuật toán Random Forest, đã được Prabina Kumar Meher và các cộng sự sử dụng thành công cho việc xây dựng mô hình phân loại thực vật; Đối với mô hình phân loại động vật thì Mulyati cũng áp dụng mô hình học máy thuật toán Support Vector Machine. Các phương pháp học máy cho kết nhanh, chính xác, và dễ triển khai cho từng loài sinh vật. Trong pham vi đề tài sẽ đề xuất giải pháp định danh loài nấm mối theo phương pháp học máy bán giám sát với thuật toán XGBoots kết kỹ thuật rút trích đặc trưng K-mer. Giải pháp mới này sẽ khắc phục việc thiếu dữ liệu cho mô hình dự đoán bằng việc xây dựng CSDL về gene nấm mối. Và đề xuất mô hình dự đoán tên loài bằng máy học bằng phương pháp học máy
Qua kết quả khảo sát số lượng trình tự của loài nấm mối tại các ngân hàng, tác giả nhận thấy số lượng gene không đủ số loài nấm mối như vậy có nghĩa là việc dự đoán tên loài này từ các phần mềm về gene có thể cũng không chính xác. Giải pháp xây dựng cơ sở dữ liệu gene lưu trữ tất cả dữ liệu gene về loài nấm mối từ tất các ngân hàng gene trên thế giới và xây dựng mô hình định danh mới cho loài nấm mối là rất cần thiết.
Để định danh nấm mối ở Bình Dương, tác giả đã sử dụng phương pháp nghiên cứu cách giải quyết từng vấn đề còn tồn tại việc dự đoán tên loài nấm mối như thiếu dữ liệu và hiệu năng; nghiên cứu các mô hình học máy hiện đại có liên quan đến dự đoán tên loài sinh học; viết chương trình tính toán và chương trình mô phỏng để kiểm chứng các kết quả bằng công cụ R.
Từ phương pháp nghiên cứu trên, tác giả đã triển khai các nội dung nghiên cứu và thu được các kết quả cụ thể:
Thu thập dữ liệu: Khảo sát và thu nhận 969 trình tự ITS từ các nguồn gene của các ngân hàng gene lớn trên thế giới là NCBI, BOLD, EBML. Tách các thông tin quan trọng và xây dựng CSDL TerDB.
Xây dựng tập dữ liệu huấn luyện: Khảo sát dữ liệu gene ITS và xây dựng bộ dữ liệu dùng cho huấn luyện là 867 trình tự.
Khảo sát thuật toán tin học sử dụng cho mô hình cây phân loài: khảo sát và đánh giá cơ chế xây dựng cây phân loại của các thuật toán như: Random Forest, NJ, phương pháp khoảng cách, phương pháp phân cụm WPGMA và UPGMA.
Chọn lựa thuật toán tối ưu cho mô hình: triển khai và đánh giá các thuật toán dành cho máy học. Chọn lựa phương pháp tối ưu hơn để xây dụng cây phân loại.
Huấn luyện mô hình: sử dụng các kỹ thuật kiểm tra chéo 5-folds để chọn lựa mô hình tốt nhất; dùng kỹ thuật confustion matrix để kiểm tra độ chính xát mô hình.
Kiểm tra và trình bày kết quả: dự đoán với mô hình được đề xuất tốt nhất; cập nhật dữ liệu kết quả loài vừa định danh vào CSDL TerDB.
Thông qua việc tìm tác giải pháp kỹ thuật của học máy như phân lớp như Random Forest, XGBoost cho mô hình dự đoán khẳng định đây là một thuật toán phân lớp mạnh được đề xuất cho những loại mô hình học máy với các loại dữ liệu sinh học phân tử với rất nhiều thông tin chưa biết hay rỗng với số mẫu quan sát hạn chế. Vì các giải pháp này cũng tạo ra một tập hợp các cây quyết định, mỗi cây được xây dựng trên tập mẫu Bootstrap với hiệu quả phân lớp chính xác cao và có thể áp dụng phân lớp chiều cao được sử dùng rất phổ biến cho việc gán nhãn tính năng hay rút gọn chiều. Bên cạnh đó thuật toán về phân cụm phân cấp như UPGMA lại là một giải pháp tốt cho việc xác định tính tương đồng của các gene và đây cũng là sở để rút trích đặc trưng cho các giải pháp học sâu sẽ áp dụng để giải bài toán được đề ra của đề tài.
Các kết quả nghiên cứu của đề tài cung cấp số liệu tường minh về lưu trữ gene ITS của các loài nấm mối trên thế giới cũng như cách sử dụng chúng cho mục đích phân loại nấm mối. Mô hình định danh loài nấm mối được khảo sát, cài đặt và đánh giá cẩn thận về độ chính xác cũng như về hiệu năng.
Kết quả của đề tài có thể sử dụng dụng như nguồn tài liệu tham khảo đáng tin cậy về học máy trong ứng dụng sinh học phân tử. Vì thế, chúng ta có thể sử dụng kết quả của đề tài làm tài liệu cho học viên cao học các chuyên ngành Công nghệ thông tin tham khảo trong quá trình nghiên cứu khoa học hay làm luận văn tốt nghiệp.
Ngoài ra, các kết quả đạt được của đề tài là minh chứng và thành quả góp phần cổ động cho các nghiên cứu liên ngành về sinh học công nghệ thông tin cho giảng viên của Trường. Chủ nhiệm đề tài đã chuyển giao toàn bộ kết quả nghiên cứu và các sản phẩm đạt được của đề tài cho Trường thông qua phòng Khoa học công nghệ để cung cấp thêm nguồn tài liệu phục vụ cho nghiên cứu khoa học và giảng dạy tại Trường.
Hồng Phước