Abstract:
|
งานวิจัยนีมี้วัตถุประสงค์เพื่อค้นหาเทคนิคด้านเหมืองข้อมูล เพื่อสร้างโมเดลการวิเคราะห์
โรคอัตโนมัติทดสอบประสิทธิภาพในการจำแนก (Classification) สำหรับข้อมูลทางการแพทย์ โดย
ทดลองกับ 7 อัลกอริทึม ซึ่งประกอบด้วย Naïve Bayes,Multilayer Perceptron,Radial Basis
Function Network, Support Vector Machine, K-Nearest Neighbor, Decision Tree, Ripper
ทำการศึกษาเปรียบเทียบวิธีลดคุณลักษณะที่เหมาะสมด้วยวิธี Correlation-based Feature
Subset Selection (CFS) และวิธี Feature selection method based on correlation measure
and relevance & redundancy analysis (FCBF) รวมถึงทดสอบอัลกอริทึมประเภท Single
learning และ Multiple learning และทำการเพิ่มประสิทธิภาพการจำแนกด้วยวิธี Bagging และ
Boosting
ผลจากการวิจัยพบว่าทุกโมเดลที่สร้างขึน้ มีประสิทธิภาพในการจำแนกประเภทของโรคใน
ระดับ 80 % ขึน้ ไป เมื่อไม่ลดคุณลักษณะ และเมื่อเรียงค่าความถูกต้อง (Accuracy) แยกตาม
ประเภทของข้อมูลพบว่า กลุ่มข้อมูล Hypothyroid การสร้างโมเดลด้วยอัลกอริทึม Decision Tree
ให้ประสิทธิภาพดีที่สุด 99.57% กลุ่มข้อมูล Leukemia การสร้างโมเดลด้วยอัลกอริทึม Naive
Bayes กับ Support Vector Machine ให้ประสิทธิภาพดีที่สุด 98.61% กลุ่มข้อมูล Breast-w การ
สร้างโมเดลด้วยอัลกอริทึม Support Vector Machine ให้ประสิทธิภาพดีที่สุด 96.99% กลุ่ม
ข้อมูล Lymphography การสร้างโมเดลด้วยอัลกอริทึม Support Vector Machine ให้
ประสิทธิภาพดีที่สุด 86.48% กลุ่มข้อมูล Hepatitis การสร้างโมเดลด้วยอัลกอริทึม Radial Basis
Function กับ K-Nearest Neighbor ให้ประสิทธิภาพดีที่สุด 85.80% กลุ่มข้อมูล Heart-c การ
สร้างโมเดลด้วยอัลกอริทึม Support Vector Machine ให้ประสิทธิภาพดีที่สุด 84.15% กลุ่ม
ข้อมูล Heart-statlog การสร้างโมเดลด้วยอัลกอริทึม Radial Basis Function กับ SupportVector Machine ให้ประสิทธิภาพดีที่สุด 84.07% ตามลำดับ ซึ่งการสร้างโมเดลดังกล่าวมี
คุณภาพในระดับที่ยอมรับได้ และสามารถนำไปพัฒนาเป็นซอฟต์แวร์ในการวินิจฉัยโรคอัตโนมัติได้
การเพิ่มประสิทธิภาพด้วยวิธี Multiple Learning ด้วยอัลกอริทึม Bagging และ Boosting
ส่งผลให้ค่าความถูกต้องเพิ่มขึน้ เฉพาะบางกลุ่มข้อมูลเท่านัน้ โดยมีข้อสังเกตว่าสัดส่วนของกลุ่ม
ตัวอย่างในแต่ละคลาสจะต้องมีปริมาณใกล้เคียงกันหรือเท่ากัน กรณีที่การกระจายของของกลุ่ม
ตัวอย่างในแต่ละคลาส มีสัดส่วนที่แตกต่างกันมาก ส่งผลให้เทคนิค Bagging และ Boosting ไม่
ช่วยเพิ่มประสิทธิภาพการจำแนกข้อมูล
การลดคุณลักษณะด้วยวิธี Correlation-based Feature Subset Selection (CFS) และ
วิธี Feature selection method based on correlation measure and relevance &
redundancy analysis (FCBF) ส่งผลให้ประสิทธิภาพความถูกต้อง (Accuracy) ในการจำแนก
ประเภทของโรคใกล้เคียงกับการไม่ลดคุณลักษณะ แต่การลดมิติของข้อมูลดังกล่าวทำให้ประหยัด
ทรัพยากรของระบบคอมพิวเตอร์และระยะเวลาในการเรียนรู้เพื่อสร้างโมเดลได้เป็นอย่างดี |