วันศุกร์ที่ 13 พฤศจิกายน พ.ศ. 2552

Test options – แนวทางการทดสอบ

สมมุติว่ามีข้อมูลอยู่ 100 ชุด

1. Use training set คือ การใช้ข้อมูล 100 ชุดในการ train และใช้ข้อมูล 100 ชุดนั้นในการ test (ผลก็จะออกมาดีเพราะมีการเรียนรู้ไปแล้ว)

2. Supplied test set คือ การแบ่งข้อมูลที่ใช้ในการ train และ test ด้วยตนเอง ทั้งวิธีการแบ่งและจำนวนที่แบ่ง เช่น แบ่งข้อมูล 65 ชุดแรกเพื่อใช้ในการ train และข้อมูล 35 ชุดหลังเพื่อใช้ในการ test เป็นต้น

3. Cross-validation Folds … (ใส่ตัวเลขเข้าไป) คือ การแบ่งข้อมูลแบบสุ่มออกเป็นจำนวนกลุ่มตามตัวเลขที่เราใส่เข้าไป เช่น ใส่เลข 20 ก็แปลว่ามีการแบ่งข้อมูลออกเป็น 20 กลุ่ม กลุ่มละ 5 ชุดข้อมูล แล้วทำการทดสอบ 20 รอบ โดยรอบที่ 1 คือ การเอาข้อมูลกลุ่มที่ 1 ออกเพื่อใช้ในการ test และใช้กลุ่มข้อมูลที่ 2-20 ในการ train ส่วนรอบที่ 2 คือ การเอาข้อมูลกลุ่มที่ 2 ออกเพื่อใช้ในการ test และใช้กลุ่มข้อมูลที่ 1, 3-20 ในการ train ดังนั้น รอบที่ 20 คือ การเอาข้อมูลกลุ่มที่ 20 ออกเพื่อใช้ในการ test และใช้กลุ่มข้อมูลที่ 1-19 ในการ train

—หากใส่ตัวเลข 100 เข้าไป แปลว่า ทำการทดสอบ 100 รอบ โดยเอาชุดข้อมูลออก 1 ชุด เพื่อใช้ในการ test แล้วใช้ชุดข้อมูลที่เหลือทำการ train และเปลี่ยนชุดข้อมูลที่ test จนครบทั้ง 100 ชุดข้อมูล มีชื่อเรียกอีกชื่อหนึ่งว่า leave one out ซึ่งเหมาะกับการทำการทดลองที่มีชุดข้อมูลจำนวนน้อย หากมีชุดข้อมูลจำนวนมาก การแบ่งเป็น 10-20 กลุ่มข้อมูลก็อาจจะเพียงพอ เนื่องจากตัวเลขกลุ่มข้อมูลที่มากขึ้นจะให้ผลลัพธ์ที่แม่นยำมากยิ่งขึ้น แต่ก็ใช้เวลาในการทดลองนานยิ่งขึ้นเช่นกัน

4. Percentage split คือ การแบ่งข้อมูลแบบสุ่มด้วยการแบ่งเปอร์เซ็นต์ เช่น หากแบ่งออกเป็น 10% ก็หมายถึง เลือกข้อมูลแบบสุ่มออกมา 90 ชุดเพื่อใช้ในการ train และใช้ข้อมูลอีก 10 ชุดที่เหลือในการ test

ไม่มีความคิดเห็น:

แสดงความคิดเห็น

หมายเหตุ: มีเพียงสมาชิกของบล็อกนี้เท่านั้นที่สามารถแสดงความคิดเห็น