บทเรียน weka ( Data Mining )

วันศุกร์ที่ 26 มีนาคม พ.ศ. 2553

การเชื่อมต่อฐานข้อมูล MySQL กับ Weka

การนำข้อมูลอินพุตเข้า Weka นั้น สามารถทำได้หลายวิธี เช่น

Import ARFF file
Import CSV file
เรียกใช้ข้อมูลที่อยู่ใน website โดยระบุ URL ที่เก็บข้อมูล
Import ข้อมูลจากฐานข้อมูล

สำหรับวันนี้จะอธิบายเกี่ยวกับการติดต่อฐานข้อมูล MySQL กับ Weka เพราะผู้ใช้งานส่วนใหญ่มักใช้ฐานข้อมูลในการเก็บข้อมูลอยู่แล้ว ซึ่งการ import data เข้า Weka โดยตรงจากฐานข้อมูลน่าจะสะดวกกว่าการแปลงข้อมูลให้อยู่ในรูปแบบ ARFF หรือ CSV file ค่ะ สำหรับขั้นตอนการ Import ข้อมูลจาก MySQL เข้าสู่ Weka สามารถทำได้ดังนี้ค่ะ

อบรม Weka [ Data Mining ]

Download JDBC Driver สำหรับ MySQL (mysql-connector-java v5.1.10) และนำไปวางไว้กับ folder เดียวกับ weka.jar

Download Properties file (DatabaseUtils.props) และนำไปวางไว้ที่ folder เดียวกับ weka.jar

เปิด file DatabaseUtils.props และแก้ไขบรรทัดต่อไปนี้

# JDBC driver (comma-separated list)
jdbcDriver=com.mysql.jdbc.Driver

# database URL
jdbcURL=jdbc:mysql://localhost:3306/[ชื่อ database]

เปิด file RunWeka.ini และแก้ไข “cp=%CLASSPATH%” เป็น

cp=%CLASSPATH%;mysql-connector-java-5.1.10-bin.jar

เปิดโปรแกรม Weka เพื่อเรียกใช้งาน จากนั้นเลือก Application เป็น Explorer และคลิกที่ OpenDB

จะปรากฎหน้าต่าง SQL Viewer ให้คลิกที่ User… จากนั้นระบุ

Database URL เป็น jdbc:mysql://localhost:3306/[ชื่อ database]

Username และ Password ที่ใช้ login เพื่อใช้งาน MySQL

Click ที่ปุ่ม Connect เพื่อทำการเชื่อมต่อกับฐานข้อมูล สังเกตว่าช่อง Info จะแสดงผลลัพธ์ของการเชื่อมต่อ

ใส่คำสั่ง Query เพื่อทำการดึงข้อมูลจากฐานข้อมูลขึ้นมาแสดง จากนั้นกด Execute ผลลัพธ์ที่ได้จะแสดงในช่อง Resultสังเกตว่าในช่อง Info จะแสดงจำนวนผลลัพธ์ที่ทำการ Query ขึ้นมา สุดท้ายกดที่ปุ่ม OK เพื่อทำการ Import ข้อมูลดังกล่าวเข้า Weka ค่ะ

ที่หน้า Preprocess จะเห็นว่าข้อมูลที่ Import จาก MySQL จะมีหน้าตาเหมือนการ Import จาก ARFF หรือ CSV format ต่อจากนี้ไปก็สามารถใช้เทคนิค data mining ที่มีอยู่ใน Weka ทำการวิเคราะห์หรือสร้าง model ต่างๆ ได้แล้วค่ะ

refer: http://open-miner.com/2010/02/07/import_mysql_weka/

วันศุกร์ที่ 13 พฤศจิกายน พ.ศ. 2552

DATA MINING

Data Mining การสืบค้นความรู้ที่เป็นประโยชน์และน่าสนใจบนฐานข้อมูลขนาดใหญ่ (Knowledge Discovery from very large Databases : KDD ) หรือที่เรียกกันว่า Data Mining เป็นเทคนิคที่ใช้จัดการกับข้อมูลขนาดใหญ่ โดยจะนำข้อมูลที่มีอยู่มาวิเคราะห์แล้วดึงความรู้ หรือสิ่งสำคัญออกมา เพื่อใช้ในการวิเคราะห์ หรือทำนายสิ่งต่าง ๆ ที่จะเกิดขึ้น ซึ่งการค้นหาความรู้ ความจริงที่แฝงอยู่ในข้อมูล ( Knowledge Discovery) เป็นกระบวนการขุดค้นสิ่งที่น่าสนใจในกองข้อมูลที่เรามีอยู่ ซึ่งต่างจากระบบฐานข้อมูล ตรงที่เราไม่ต้องเป็นคนกำหนดคำสั่ง (เช่น SQL) เพื่อค้นหาข้อมูลที่เราต้องการ แต่ระบบ Data Mining จะมีขบวนการ/วิธีการ (ซึ่งปกติจะเป็น machine leraning tools) เพื่อทำหน้าที่นี้ นั่นคือเราแค่บอกว่าเราต้องการอะไร (what to be mined) แต่ไม่จำเป็นต้อง ระบุว่า ทำอย่างไร (How to mine) ระบบฐานข้อมูลทั่วไป จะบังคับให้เราต้องทำทั้งสองหน้าที่นี้ คือคิดก่อนว่าจะ ค้นหาอะไรแล้วก็ไปประดิษฐ์คำสั่ง SQL เพื่อค้นหาข้อมูลนั้น ดังนั้นถ้าเราคิดไม่รอบคอบ หรือคิดดีแล้วแต่แปลเป็นคำสั่งผิด ก็จะได้ข้อมูลผิดๆ หรือไม่ตรงกับความต้องการ Data Mining มีประโยชน์มาก โดยเฉพาะการค้นหาข้อมูล ซึ่งข้อมูลที่ได้จะเป็น

Data Mining เป็นขบวนการทำงานที่เรียกว่า process ที่สกัดข้อมูล (Extract data) จากฐานข้อมูลขนาดใหญ่ (Large Information) เพื่อให้ได้สารสนเทศ (Usefull Information) ที่เรายังไม่รู้ (Unknown data) โดยเป็นสารสนเทศที่มีเหตุผล (Valid) และสามารถนำไปใช้ได้ (Actionable) ซึ่งเป็นสิ่งสำคัญในการที่จะช่วยการตัดสินใจในการทำธุรกิจ Data Mininig เป็นโปรเซสที่สำคัญในการทำ Knowledge Discovery in Database ที่เราเรียกสั้นๆว่า KDD ส่วน Data Mining สามารถเรียกสั้นๆว่า DM

Business Object Determination เป็นตัวจักรที่สำคัญในการทำ KDD เนื่องจากเป็นกำหนด ขอบเขต เป้าหมาย ของการทำ KDD ซึ่งจะมีผลต่อทุกๆขั้นตอนของการทำ KDD โดยนักวิเคราะห์ธุรกิจ (Business Analyst) จะต้อง Identify ปัญหาที่เกิดขึ้นในการทำธุรกิจให้ครอบคลุมและชัดเจนรวมทั้งวัตถุประสงค์ด้วย

Data Preparation หน้าที่ของขั้นตอนนี้คือจัดการข้อมูลให้สามารถนำเข้าสู่อัลกอริทึมส์ของ Data Mining ได้ เช่น การทำ Data Cleaning, Data Integration, Data Reduction เป็นต้น ซึ่ง Data Preparation สามารถแบ่งออกเป็น 3 ส่วนได้แก่ Data Selection, Data Preprocessing และ Data Transformation Data Mining เป็นขั้นตอนการทำ Mining โดยมี operation ในการทำ Data Mining หลายแบบ เช่น Database Segmentation, Predictive Modeling, Link Analysis เป็นต้น แต่ละ Data Mining Operation จะมีอัลกอริทึมส์ให้เลือกใช้ เช่น การทำ Database Segmentation อาจใช้ K-Mean Algorithms หรืออาจใช้ Unsupervised Learning Neural Networks เช่น โมเดล Kohonen Neural Net ถ้าเป็นการทำ Predictive Modeling อาจใช้ CART (Classification And Regression Tree) หรืออาจใช้ Supervised Learning Neural Network เช่น Backpropagation Neural Net ถ้าเป็นการทำ Link Analysis ซึ่งมีการทำอยู่ 2 ลักษณะคือ Association Rule Discovery และ Sequential Pattern Discovery อาจใช้ Apriori Algorithms Analysis of Results and Knowledge Presentation เป็นขั้นตอนสุดท้ายสำหรับนักวิเคาะห์ข้อมูลที่จะต้องเก็บผลลัพธ์ของ Data Mining สรุปความหมายของผลลัพธ์ที่ได้ ซึ่งจะเป็นข้อมูลความรู้ (Knowledge) นำไปเป็นสารสนเทศที่ช่วยในการตัดสินใจ

ปัจจัยที่ทำให้ Data Mining เป็นที่ได้รับความนิยม

· จำนวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตและขยายตัวอย่างรวดเร็ว การสืบค้นความรู้จะมีความหมายก็ต่อเมื่อฐานข้อมูลที่ใช้มีขนาดใหญ่มาก ปัจจุบันมีจำนวนและขนาดข้อมูลขนาดใหญ่ที่ขยายตัวอย่างรวดเร็ว โดยผ่านทาง Internet ดาวเทียม และแหล่งผลิตข้อมูล อื่น ๆ เช่น เครื่องอ่านบาร์โค้ด , เครดิตการ์ด , อีคอมเมิร์ซ

· ข้อมูลถูกจัดเก็บเพื่อนำไปสร้างระบบการสนับสนุนการตัดสินใจ ( Decision Support System) เพื่อเป็นการง่ายต่อการนำข้อมูลมาใช้ในการวิเคราะห์เพื่อการตัดสินใจ ส่วนมากข้อมูลจะถูกจัดเก็บแยกมาจากระบบปฏิบัติการ ( Operational System ) โดยจัดอยู่ในรูปของคลังหรือเหมืองข้อมูล ( Data Warehouse ) ซึ่งเป็นการง่ายต่อการนำเอาไปใช้ในการสืบค้นความรู้

· ระบบ computer สมรรถนะสูงมีราคาต่ำลง เทคนิค Data Mining ประกอบไปด้วย Algorithm ที่มีความซับซ้อนและความต้องการการคำนวณสูง จึงจำเป็นต้องใช้งานกับระบบ computer สมรรถนะสูง ปัจจุบันระบบ computer สมรรถนะสูงมีราคาต่ำลง พร้อมด้วยเริ่มมีเทคโนโลยีที่นำเครื่อง microcomputer จำนวนมากมาเชื่อมต่อกันโดยเครือข่ายความเร็วสูง ( PC Cluster ) ทำให้ได้ระบบ computer สมรรถนะสูงในราคาต่ำ

· การแข่งขันอย่างสูงในด้านอุตสาหกรรมและการค้า เนื่องจากปัจจุบันมีการแข่งขันอย่างสูงในด้านอุตสหกรรมและการค้า มีการผลิตข้อมูลไว้อย่างมากมายแต่ไม่ได้นำมาใช้ให้เกิดประโยชน์ จึงเป็นการจำเป็นอย่างยิ่งที่ต้องควบคุมและสืบค้นความรู้ที่ถูกซ่อนอยู่ในฐานข้อมูลความรู้ที่ได้รับสามารถนำไปวิเคราะห์เพื่อการตัดสินใจในการจัดการในระบบต่าง ๆ ซึ่งจะเห็นได้ว่าความรู้เหล่านี้ถือว่าเป็นผลิตผลอีกชิ้นหนึ่งเลยทีเดียว

ประเภทข้อมูลที่สามารถทำ Data Mining

· Relational Database เป็นฐานข้อมูลที่จัดเก็บอยู่ในรูปแบบของตาราง โดยในแต่ละตารางจะประกอบไปด้วยแถวและคอลัมน์ ความสัมพันธ์ของข้อมูลทั้งหมดสามารถแสดงได้โดย entity-relationship ( ER ) model

· Data Warehouses เป็นการเก็บรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ในรูปแบบเดียวกันและรวบรวมไว้ในที่ ๆ เดียวกัน

· Transactional Database ประกอบด้วยข้อมูลที่แต่ละทรานเซกชันแทนด้วยเหตุการณ์ในขณะใดขณะหนึ่ง เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูป ชื่อลูกค้าและรายการสินค้าที่ลูกค้ารายนั้นซื้อ เป็นต้น

· Advanced Database เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่น ๆ เช่น ข้อมูลแบบ object-oriented , ข้อมูลที่เป็น text file , ข้อมูลมัลติมีเดีย , ข้อมูลในรูปของ web

ลักษณะเฉพาะของข้อมูลที่สามารถทำ Data Mining

· ข้อมูลขนาดใหญ่ เกินกว่าจะพิจารณาความสัมพันธ์ที่ซ่อนอยู่ภายในข้อมูลได้ด้วยตาเปล่า หรือโดยการใช้ Database Management System ( DBMS ) ในการจัดการฐานข้อมูล

· ข้อมูลที่มาจากหลายแหล่ง โดยอาจรวบรวมมาจากหลายระบบปฏิบัติการหรือหลาย DBMS เช่น Oracle , DB2 , MS SQL , MS Access เป็นต้น

· ข้อมูลที่ไม่มีการเปลี่ยนแปลงตลอดช่วงเวลาที่ทำการ Mining หากข้อมูลที่มีอยู่นั้นเป็นข้อมูลที่เปลี่ยนแปลงตลอดเวลาจะต้องแก้ปัญหานี้ก่อน โดยบันทึกฐานข้อมูลนั้นไว้และนำฐานข้อมูลที่บันทึกไว้มาทำ Mining แต่เนื่องจากข้อมูลนั้นมีการเปลี่ยนแปลงอยู่ตลอดเวลา จึงทำให้ผลลัพธ์ที่ได้จาการทำ Mining สมเหตุสมผลในช่วงเวลาหนึ่งเท่านั้น ดังนั้นเพื่อให้ได้ผลลัพธ์ที่มีความถูกต้องเหมาะสมอยู่ตลอดเวลาจึงต้องทำ Mining ใหม่ทุกครั้งในช่วงเวลาที่เหมาะสมข้อมูลที่มีโครงสร้างซับซ้อน เช่น ข้อมูลรูปภาพ ข้อมูลมัลติมีเดีย ข้อมูลเหล่านี้สามารถนำมาทำ Mining ได้เช่นกันแต่ต้องใช้เทคนิคการทำ Data Mining ขั้นสูง

ตัวอย่างต่อไปนี้แสดงผลสำเร็จของการนำ data mining ไปใช้

- ด้านการแพทย์ : ใช้ data mining ค้นหาผลข้างเคียงของการใช้ยา โดยอาศัยข้อมูลจากแฟ้มประวัติผู้ป่วย, ใช้ในการวิเคราะห์หาความสัมพันธ์ของสารพันธุกรรม

- ด้านการเงิน : ใช้ data mining ตัดสินว่าควรจะอนุมัติเครดิตให้ลูกค้ารายใดบ้าง, ใช้ในการคาดหมายความน่าจะเป็นว่าธุรกิจนั้นๆมีโอกาสที่จะล้มละลายหรือไม่, ใช้คาดหมายการขึ้น/ลงของหุ้นในตลาดหุ้น

- ด้านการเกษตร : ใช้จำแนกประเภทของโรคพืชที่เกิดกับถั่วเหลืองและมะเขือเทศ ด้านวิศวกรรม : ใช้วิเคราะห์และวินิจฉัยสาเหตุการทำงานผิดพลาดของเครื่องจักรกล ด้านอาชญวิทยา : ใช้วิเคราะห์หาเจ้าของลายนิ้วมือ

- ด้านอวกาศ : ใช้วิเคราะห์ข้อมูลที่ส่งมาจากดาวเทียมขององค์การนาซ่า

เทคนิคต่าง ๆ ของ Data Mining

1. Association rule Discovery คือ การค้นหาความสัมพันธ์ของข้อมูลจากข้อมูลขนาดใหญ่ที่มีอยู่เพื่อนำไปใช้ในการวิเคราะห์ หรือทำนายปรากฏการณ์ต่าง ๆ หรือมากจากการวิเคราะห์การซื้อสินค้าของลูกค้าเรียกว่า “ Market Basket Analysis ” ซึ่งประเมินจากข้อมูลในตารางที่รวบรวมไว้ ผลการวิเคราะห์ที่ได้จะเป็นคำตอบของปัญหา ซึ่งการวิเคราะห์แบบนี้เป็นการใช้ “ กฎความสัมพันธ์ ” ( Association Rule ) เพื่อหาความสัมพันธ์ของข้อมูล

ตัวอย่างการนำเทคนิคนี้ไปประยุกต์ใช้กับงานจริง ได้แก่ ระบบแนะนำหนังสือให้กับลูกค้าแบบอัตโนมัติ ของ Amazon ข้อมูลการสั่งซื้อทั้งหมดของ Amazon ซึ่งมีขนาดใหญ่มากจะถูกนำมาประมวลผลเพื่อหาความสัมพันธ์ของข้อมูล คือ ลูกค้าที่ซื้อหนังสือเล่มหนึ่ง ๆ มักจะซื้อหนังสือเล่มใดพร้อมกันด้วยเสมอ ความสัมพันธ์ที่ได้จากกระบวนการนี้จะสามารถนำไปใช้คาดเดาได้ว่าควรแนะนำหนังสือเล่มใดเพิ่มเติมให้กับลูกค้าที่เพิ่งซื้อหนังสือจากร้าน ตัวอย่างเช่น buys ( x , database) -> buys ( x , data mining ) [ 80% , 60% ] หมายความว่า เมื่อซื้อหนังสือ database แล้วมีโอกาสที่จะซื้อหนังสือ data mining ด้วย 60 % และมีการซื้อทั้งหนังสือ database และหนังสือ data mining พร้อม ๆ กัน 80 %

อีกตัวอย่าง คือ ในการซื้อสินค้าของลูกค้า 1 ครั้ง โดยไม่ต้องจำกัดว่าจะซื้อสินค้าในห้างร้าน หรือสั่งผ่านทางไปรษณีย์ หรือการซื้อสินค้าจากร้านค้าเสมือนจริง ( Virtual store ) บน web โดยปกติเราจะต้องการทราบว่าสินค้าใดบ้างที่ลูกค้ามักซื้อด้วยกัน เพื่อนำไปพิจารณาปรับปรุงการจัดวางสินค้าในร้าน หรือใช้เพื่อหาวิธีวางรูปคู่กันในใบโฆษณาสินค้า ก่อนอื่นขอกำหนดคำว่า กลุ่มรายการ ( itemset ) หมายถึง กลุ่มสินค้าที่ปรากฏร่วมกัน เช่น { รองเท้า , ถุงเท้า}, {ปากกา, หมึก} หรือ { นม , น้ำผลไม้} โดยกลุ่มรายการดังกล่าวนี้ อาจจะจับคู่กลุ่มลูกค้ากับสินค้าก็ได้เช่น วิเคราะห์หา “ลูกค้าที่ซื้อสินค้าบางชนิดซ้ำ ๆ กัน อย่างน้อย 5 ครั้งแล้ว ” กรณีนี้ฐานข้อมูลเรามีการเก็บรายการซื้อขายเป็นจำนวนมาก และคำถามข้างต้น (query ) นี้จำเป็นต้องค้นหาทุก ๆ คู่ของลูกค้ากับสินค้า เช่น { คุณ ก , สินค้า A} , { คุณ ก , สินค้าB} , {คุณ ก , สินค้า C } , { คุณ ข , สินค้า B} เป็นต้น นับเป็นงานที่หนักพอสมควรสำหรับ DBMS และถ้าจะเขียน query ข้างต้นเป็น SQL จะได้ว่า

SELECT P.custid , P.item , SUM( P.qty )

FROM Purchases P

GROUP BY P.custid , P.item

HAVING SUM(P.qty ) > 5

หลังจากที่ DBMS ประมวลผล SQL นี้ เนื่องจากมีข้อมูลที่ต้องตรวจสอบมากมายหลายคู่และแต่ละคู่ต้องค้นหามาจากฐานข้อมูลเลย แต่ผลลัพธ์ของ query แบบนี้ มักจะมีจำนวนน้อยมาก เลยเรียก query ชนิดนี้ว่าเป็น “iceberg query” ซึ่งเปรียบกับสำนวนไทย คือ “ งมเข็มในมหาสมุทร”

2. Classification & Prediction

· Classification

เป็นกระบวนการสร้าง model จัดการข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้ ตัวอย่างเช่น จัดกลุ่มนักเรียนว่า ดีมาก ดี ปานกลาง ไม่ดี โดยพิจารณาจากประวัติและผลการรียน หรือแบ่งประเภทของลูกค้าว่าเชื่อถือได้ หรือไม่โดยพิจารณาจากข้อมูลที่มีอยู่ กระบวนการ classification นี้แบ่งออกเป็น 3 ขั้นตอน ดังรูป

Model Construction ( Learning )

เป็นขั้นการสร้าง model โดยการเรียนรู้จากข้อมูลที่ได้กำหนดคลาสไว้เรียบร้อยแล้ว ( training data ) ซึ่ง model ที่ได้อาจแสดงในรูปของ

1. แบบต้นไม้ ( Decision Tree)

2. แบบนิวรอลเน็ต ( Neural Net)

1)โครงสร้างแบบต้นไม้ของ Decision Tree

เป็นที่นิยมกันมากเนื่องจากเป็นลักษณะที่คนจำนวนมากคุ้นเคย ทำให้เข้าใจได้ง่าย มีลักษณะเหมือนแผนภูมิองค์กร โดยที่แต่ละโหนดแสดง attribute แต่ละกิ่งแสดงผลในการทดสอบ และลีฟโหนดแสดงคลาสที่กำหนดไว้

สมมติว่าบริษัทขนาดใหญ่แห่งหนึ่ง ทำธุรกิจอสังหาริมทรัพย์มีสำนักงานสาขาอยู่ประมาณ 50 แห่ง แต่ละสาขามีพนักงานประจำ เป็นผู้จัดการและพนักงานขาย พนักงานเหล่านี้แต่ละคนจะ ดูแลอาคารต่าง ๆ หลายแห่งรวมทั้งลูกค้าจำนวนมาก บริษัทจำเป็นต้องใช้ระบบฐานข้อมูลที่กำหนดความสัมพันธ์ระหว่างองค์ประกอบเหล่านี้ เมื่อรวบรวมข้อมูลแบ่งเป็นตารางพื้นฐานต่าง ๆ เช่น ข้อมูลสำนักงานสาขา ( Branch ) ข้อมูลพนักงาน ( Staff ) ข้อมูลทรัพย์สิน ( Propety) และข้อมูลลูกค้า ( Client ) พร้อมทั้งกำหนดความสัมพันธ์ ( Relationship) ของข้อมูลเหล่านี้ เช่น ประวัติการเช่าบ้านของลูกค้า ( Customer_rental ) รายการให้เช่า ( Rentals ) รายการขายสินทรัพย์ ( Sales ) เป็นต้น ต่อมาเมื่อมีประชุมกรรมการผู้บริหารของบริษัท ส่วนหนึ่งของรายงานจากฐานข้อมูลสรุปว่า

“ 40 % ของลูกค้าที่เช่าบ้านนานกว่าสองปี และมีอายุเกิน 25 ปี จะซื้อบ้านเป็นของตนเอง โดยกรณีเช่นนี้เกิดขึ้น 35 % ของลูกค้าผู้เช่าบ้านของบริษัท” ดังรูปที่ 4 แสดงให้เห็นถึง Decision Tree สำหรับการวิเคราะห์ว่าลูกค้าบ้านเช่าจะมีความสนใจที่จะซื้อบ้านเป็นของตนเองหรือไม่ โดยใช้ปัจจัยในการวิเคราะห์คือ ระยะเวลาที่ลูกค้าได้เช่าบ้านมา และอายุของลูกค้า

******************** pic *********************************8

2) นิวรอลเน็ต หรือ นิวรอลเน็ตเวิร์ก ( Neural Net)

เป็นเทคโนโลยีที่มีที่มาจากงานวิจัยด้านปัญญาประดิษฐ์ Artificial Intelligence:AI เพื่อใช้ในการคำนวณค่าฟังก์ชันจากกลุ่มข้อมูล วิธีการของ นิวรอลเน็ต ( แท้จริงต้องเรียกให้เต็มว่า Artificial Neural Networks หรือ ANN ) เป็นวิธีการที่ให้เครื่องเรียนรู้จากตัวอย่างต้นแบบ แล้วฝึก

( train ) ให้ระบบได้รู้จักที่จะคิดแก้ปัญหาที่กว้างขึ้นได้ ในโครงสร้างของนิวรอลเน็ตจะประกอบด้วยโหนด ( node ) สำหรับ Input – Output และการประมวลผล กระจายอยู่ในโครงสร้างเป็นชั้น ๆ ได้แก่ input layer , output layer และ hidden layers การประมวลผลของนิวรอลเน็ตจะอาศัยการส่งการทำงานผ่านโหนดต่าง ๆ ใน layer เหล่านี้ สำหรับตัวอย่างรูปที่ 5 เป็นการวิเคราะห์แบบเดียวกับรูปที่ 4 ในโครงสร้างแบบนิวรอลเน็ต

- Model Evaluation ( Accuracy )

เป็นขั้นการประมาณความถูกต้องโดยอาศัยข้อมูลที่ใช้ทดสอบ ( testing data ) ซึ่งคลาสที่แท้จริงของข้อมูลที่ใช้ทดสอบนี้จะถูกนำมาเปรียบเทียบกับคลาสที่หามาได้จาก model เพื่อทดสอบความถูกต้อง

- Model Usage ( Classification )

เป็น Model สำหรับใช้ข้อมูลที่ไม่เคยเห็นมาก่อน ( unseen data ) โดยจะทำการกำหนดคลาสให้กับ object ใหม่ที่ได้มา หรือ ทำนายค่าออกมาตามที่ต้องการ

· Prediction

เป็นการทำนายหาค่าที่ต้องการจากข้อมูลที่มีอยู่ ตัวอย่างเช่น หายอดขายของเดือนถัดไปจากข้อมูลที่มีอยู่ หรือทำนายโรคจากอาการของคนไข้ในอดีต เป็นต้น

3. Database clustering หรือ Segmentation

เป็นเทคนิคการลดขนาดของข้อมูลด้วยการรวมกลุ่มตัวแปรที่มีลักษณะเดียวกันไว้ด้วยกัน ตัวอย่างเช่น บริษัทจำหน่ายรถยนต์ได้แยกกลุ่มลูกค้าออกเป็น 3 กลุ่ม คือ

1. กลุ่มผู้มีรายได้สูง (>$80,000)

2. กลุ่มผู้มีรายได้ปานกลาง ($25,000 to $ 80,000)

3. กลุ่มผู้มีรายได้ต่ำ (less than $25,000)

และภายในแต่ละกลุ่มยังแยกออกเป็น

- Have Children

- Married

- Last car is a used car

- Own cars

จากข้อมูลข้างต้นทำให้ทางบริษัทรู้ว่าเมื่อมีลูกค้าเข้ามาที่บริษัทควรจะเสนอขายรถประเภทใด เช่น ถ้าเป็นกลุ่มผู้มีรายได้สูงควรจะเสนอรถใหม่ เป็นรถครอบครัวขนาดใหญ่พอสมควร แต่ถ้าเป็นผู้มีรายได้ค่อนข้างต่ำควรเสนอรถมือสอง ขนาดค่อนข้างเล็ก

4. Deviation Detection

เป็นกรรมวิธีในการหาค่าที่แตกต่างไปจากค่ามาตรฐาน หรือค่าที่คาดคิดไว้ว่าต่างไปมากน้อยเพียงใด โดยทั่วไปมักใช้วิธีการทางสถิติ หรือการแสดงให้เห็นภาพ (Visualization) สำหรับเทคนิคนี้ใช้ในการตรวจสอบ ลายเซ็นปลอม หรือบัตรเครดิตปลอม รวมทั้งการตรวจหาจุดบกพร่องของชิ้นงานในโรงงานอุตสาหกรรม

5. Link Analysis

จุดมุ่งหมายของ Link Analysis คือ การสร้าง link ที่รียกว่า “ associations” ระหว่าง recode เดียว หรือ กลุ่มของ recode ในฐานข้อมูล link analysis สามารถแบ่งออกเป็น 3 ชนิด คือ

-associations discovery

-sequential pattern discovery

-similar time sequence discovery

To Do

1 กำหนด Mining Objective

กำหด เป้าหมายว่าเราต้องการสืบค้นความรูปแบบใดจากการทำ data mining

เราต้องมาคิดกันก่อนว่าจะนำเทคนิคData Miningไปประยุกต์กับด้านใด เพราะเหตุใด และต้องการจะหาความรู้แบบใดออกมาจากการทำData Mining

ข้อมูลที่มีอยู่ในฐานข้อมูล

ตัวอย่างข้อมูลที่ต้องการทราบ

- พฤติกรรมการซื้อ เช่น ประเภทสินค้าที่ซื้อ ช่วงเวลาที่ซื้อ ฤดูกาลที่ซื้อ

- ปริมาณการซื้อของลูกค้า เช่น ประเภทสินค้าที่ซ์อ ช่วงเวลาที่ซื้อ ฤดูกาลที่ซื้อ

- ปริมาณการซื้อของลูกค้าแต่ละประเภทในช่วงเวลาหนึ่ง

- อันดับสินค้าขายดีของลูกค้าแต่ละกลุ่ม

- กลุ่มของลูกค้าที่ทำกำไรให้กับบริษัท เพื่อกำหนดส่วนตลาดย่อยที่สำคัญและกำหนดความสำคัญของลูกค้าเพื่อวางแผนการตลาดส่วนย่อย(Niche Market) ได้

- ติดตามผลหลังการซื้อและขอความคิดเห็นจากลูกค้า

- ประเมินความพึงพอใจจากลูกค้า

2 เตรียมข้อมูลให้พร้อมที่จะนำไปทำ datamining

ซึ่งแบ่งเป็นขั้นตอนต่างๆดังนี้

1. การเตรียมข้อมูลให้สมบูรณ์ (Data cleaning)

2. คัดเลือกข้อมูล (Data Selection)

3. การปรับเปลี่ยนรูปแบบข้อมูล (Dataq Transformatio

Web Mining

สำหรับนักเวิลด์ไวด์เว็บสามารถใช้ประโยชน์จาก Application ของ Data Mining ได้ โดยมีคำเรียกเฉพาะว่า Web Mining หรือ Web Data Mining โดยเฉพาะอย่างยิ่งการใช้งาน Data Mining ใน e-Commerce และ e-Research ที่มีการแข่งขันกันสูง เป็นเทคโนโลยีสำหรับตลาดขนาดใหญ่ ( Mass market technology ) ในส่วนของ Web mining นี้นักวิชาการบางท่านให้ฉายาว่า เป็นการทำเหมืองทองคำทีเดียว

Web Mining เป็นลักษณะเฉพาะอย่างหนึ่งของการนำหลักการ Data Mining มาใช้กับข้อมูลที่อาจจะมีขนาดใหญ่มาก ทั้งนี้ขึ้นอยู่กับขอบเขตของระบบที่จะทำ Web Mining เช่น ถ้าข้อมูลของเราจะต้องรวบรวมและประมวลผลจากข้อมูลทั้งหมดบน web ข้อมูลก็จะมีขนาดใหญ่ แต่ถ้าเราประมวลผลในเครือข่ายที่เล็กลง หรือบนเครื่องเดี่ยว ๆ ก็จะเป็นเพียง Data Mining ขนาดเล็กนั่นเอง

การประยุกต์ Web Mining เพื่อการบริการ web

ได้มีงานวิจัยจำนวนมากที่นำ Web Mining มาช่วยในการวิเคราะห์งานบริการ web เพื่อนำไปพัฒนาการให้บริการที่ดี และน่าสนใจขึ้นส่วนใหญ่จะเน้นไปที่การนำข้อมูลในรูปของตัวอักษร(Text ) มาวิเคราะห์รวมกับข้อมูลชนิดอื่น โดยที่ข้อมูลเหล่านี้มักจะได้จากการบันทึกรายละเอียดในทุก ๆ ครั้งที่มีผู้เข้าใช้บริการใน web แต่ละแห่ง ตัวอย่างของการประยุกต์ใช้ Web Mining ในลักษณะนี้ได้แก่

การรวมข้อมูลตัวอักษรเข้ากับข้อมูล Links บน web เพื่อสรุปหา web page ที่จำเป็นจะต้องได้รับอนุญาต จึงจะเข้าใช้ได้ภายใต้หัวข้อที่กำหนด โดยจะมีคุณภาพดีกว่าการใช้ Search Engines ที่มีอยู่แพร่หลายในปัจจุบัน

การผสมข้อมูลเกี่ยวกับลักษณะการใช้ ช่วงระยะเวลาและ Link ที่มีผู้เข้าใช้บริการ web เพื่อนำมาพิจารณาปรับปรุงการให้บริการโดยอาจจะเพิ่มหรือลดบริการบางชนิดให้เหมาะสมกับกลุ่มผู้ใช้ในแต่ละสภาพแวดล้อม ซึ่งอาจจะมีความสนใจที่ต่างกันไป

การนำข้อมูลชนิดตัวอักษร และข้อมูลของรูปภาพ ( Image ) มาผสมผสานกัน เพื่อประโยชน์ในการค้นหาของ Search Engines ในกรณีที่ต้องการค้นหาข้อมูลที่เป็นรูปภาพ

Web Mining กับการทำธุรกิจ e-Commerce

ในการทำธุรกิจต่าง ๆ ไม่ว่าจะในรูปของห้างร้าน บริการสั่งของทางไปรษณีย์ หรือการทำธุรกิจแบบอิเล็กทรอนิกส์นั้น ปัจจัยหนึ่งที่มีความสำคัญอย่างมากต่อความสำเร็จของธุรกิจก็คือ ความเข้าใจในตัวลูกค้า หรือกลุ่มลูกค้า ยิ่งรู้ข้อมูลมากทำให้เข้าใจลูกค้าอย่างแท้จริงมากขึ้น โอกาสที่จะทำธุรกิจให้ตรงกับความต้องการของตลาดก็จะมีมากขึ้นไปด้วย

ข้อมูลของลูกค้าดังกล่าวมานี้ ความจริงแล้วมีให้นำมาใช้ได้มากมายอยู่แล้ว แต่อาจจะอยู่ในรูปที่เป็นได้ไม่ชัดเจน อันได้แก่ ข้อมูลที่รวบรวมไว้จากการบันทึกใน log file ของการใช้บริการ web หรือข้อมูลจากการสมัครสมาชิกในรูปแบบต่าง ๆ เป็นต้น ข้อมูลเหล่านี้สามารถอำนวยประโยชน์ในการติดตามดูผู้ใช้ (user tracking ) ยิ่งผู้ใช้เข้าใช้ web บ่อยและนานขึ้น เราก็จะยิ่งมีโอกาสทราบและรู้จักกับผู้ใช้มากขึ้นเท่านั้น สำหรับข้อมูลดังกล่าวเกี่ยวกับผู้ใช้จะมีการวิเคราะห์ออกมาใน 3 ลักษณะดังต่อไปนี้

1.Demograpics เป็นข้อมูลเกี่ยวกับที่อยู่ หรือสถานที่ของผู้ใช้ในขณะที่เข้าใช้บริการ web ซึ่งจะสามารถประมวลเป็นสถิติบริเวณที่อยู่อาศัยของกลุ่มผู้ใช้ส่วนมากได้

2.Phychographics เป็นข้อมูลด้านจิตวิทยา ซึ่งแสดงถึงพฤติกรรม หรือค่านิยมในด้านต่าง ๆ ของผู้ใช้ โดยสามารถจะแบ่งแยกกลุ่มผู้ใช้ตามข้อมูลการเข้าใช้บริการ web ทั้งในแง่ของเวลาและเนื้อหา

3.Technolographics เป็นข้อมูลที่แสดงถึงระดับความรู้และความสนใจในเทคโนโลยีด้าน ต่าง ๆ ของผู้ใช้ รวมถึงเครื่องคอมพิวเตอร์ที่ติดต่อเข้ามาด้วย ซึ่งจะช่วยในการพัฒนาสินค้า และบริการให้น่าสนใจและเหมาะสมในแง่ของเทคโนโลยีได้ดีขึ้น

เมื่อนำข้อมูลที่วิเคราะห์แล้วทั้ง 3 ลักษณะนี้มาพิจารณาโดยละเอียด จะเกิดประโยชน์อย่างมากในการศึกษาเกี่ยวกับสภาพ และพฤติกรรมโดยรวมของประชากร ซึ่งจำนวนข้อมูลที่นำมาใช้วิเคราะห์มักจะมีจำนวนมากและให้ผลการวิเคราะห์ที่มีความแม่นยะสูง

การประยุกต์ Web Mining ทางด้านการตลาดบนอินเตอร์เน็ต

Data Mining เป็นกระบวนการสืบค้นข้อมูลสำคัญอันจะเป็นประโยชน์ต่อการดำเนินธุรกิจออกจากกองข้อมูลขนาดมหาศาลที่จัดเก็บอยู่ภายในแหล่งฐานข้อมูลของแต่ละองค์กร การขุดค้นข้อมูลด้วยเทคโนโลยี Data Mining ประกอบไปด้วยขั้นตอนเทคโนโลยีอันสลับซับซ้อนมากมาย ไม่ว่าจะเป็นการเรียนรู้จดจำแบบแผนมาตรฐานของข้อมูลเฉพาะกลุ่ม (pattern recognition technology) การใช้ประโยชน์จากอัลกอริทึม ซึ่งออกแบบมาเพื่อให้เครื่องคอมพิวเตอร์สามารถเรียนรู้และพัฒนาตัวมันเองได้ (machinelearning & genetic algorithms) หรือการเชื่อมโยงแลกเปลี่ยนข้อมูลภายในเครือข่ายเน็ตเวิร์คแบบโพลีโนเมี่ยลซึ่งเลียนแบบการทำงานระบบประสาทของมนุษย์ (Netural & Polynomial networks) ฯลฯ

อย่างไรก็ตาม ไม่ว่าจะมีการใช้เทคโนโลยีทางคอมพิวเตอร์ที่สลับซับซ้อนเพียงไร เป้าหมายของ Data Mining ก็เป็นเรื่องง่ายๆ คือ

ทำอย่างไรถึงจะเอาชนะคู่แข่งทางธุรกิจให้ได้ ทำอย่างไรถึงจะรู้ได้ว่าประชากรกลุ่มไหนคือ ลูกค้า เป้าหมาย(Who) และประชากรกลุ่มนี้ต้องการซื้ออะไร (What) ซื้อที่ไหน (Where) ซื้อเมื่อไหร่ (When) และที่สำคัญที่สุดก็คือ อะไรคือแรงขับเคลื่อนให้ลูกค้าเป้าหมายต้องการสินค้าที่ว่านั้น (Why)

ซึ่งคำถามหลักๆ เหล่านี้เมื่อมาผนวกเข้ากับรูปแบบการดำเนินธุรกิจยุคดิจิตอลที่มีเครือข่ายอินเตอร์เน็ตเป็นสมรภูมิการตลาดอันไร้พรมแดน ก็ส่งผลให้เทคโนโลยี Data Mining กลายสภาพมาเป็นเครื่องมือการตลาดที่สำคัญมาก สำคัญขนาดที่ว่า นักธุรกิจรายใดไม่ให้ความสำคัญกับมัน ก็อาจจะถูกคู่แข่งทางการค้าของตนทิ้งห่างไปเลย

refer: http://thailand-kdd.blogspot.com/2007/07/web-mining.html

Knowledge Discovery in Databases

Knowledge Discovery in Databases - KDD : การค้นหาความรู้ในฐานข้อมูล หรือ เรีียกอีกอย่างหนึ่งว่า Data mining (บางที่บอกว่า data mining เป็นส่วนหนึ่งของการทำ KDD )

++ ซึ่งเราได้ความหมายของ data mining จาก wiki ดังนี้

การทำเหมืองข้อมูล (อังกฤษ: data mining) หรืออาจจะเรียกว่า การค้นหาความรู้ในฐานข้อมูลสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อมูล คือ กระบวนการที่กระทำกับข้อมูล(โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง และหลักคณิตศาสตร์ (Knowledge Discovery in Databases - KDD) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อมูลจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชา สถิติ

ที่มา : wiki

เนื่องจากในปัจจุบัน องค์กรส่วนใหญ่มีข้อมูลที่ต้องจัดเก็บอยู่เป็นจำนวนมาก ไม่ว่าจะเป็นข้อมูลพนักงานในองค์กร , ข้อมูลการซื้อขายสินค้า หรือแม้แต่ข้อมูลลูกค้า เป็นต้น จะเห็นได้ว่า ยิ่งองค์กรมีขนาดใหญ่มากเท่าไรย่อมทำให้การเก็บสะสมข้อมูลสำหรับองค์กรต่างๆมีจำนวนมากขึ้น การเก็บข้อมูลจำนวนมากเหล่านี้ลงในฐานข้อมูลเป็นวิธีที่นิยมใช้ในหลายองค์กร แต่ระบบการจัดการฐานข้อมูลทั่วไปไม่สามารถจัดการกับข้อมูลเหล่านี้ได้อย่างมีประสิทธิภาพเนื่องจากใช้เวลานานในการดึงข้อมูลที่มีความสำคัญออกมาวิเคราะห์ ดังนั้นจึงได้เกิดเทคโนโลยีในการวิเคราะห์ข้อมูลที่มีความสำคัญออกมาจากแหล่งเก็บข้อมูลขนาดใหญ่ เรียกเทคโนโลยีนี้ว่า "การทำเหมืองข้อมูล" หรือ การขุดค้นข้อมูล (data mining) หรืออาจเรียกอีกอย่างหนึ่งว่า KDD (Knowledge Discovery in Database)

หลักการของ data mining คือ การค้นหาข้อมูลที่มีความสำคัญโดยไม่ทราบมาก่อนแต่มีความหมายโดยนัย และคาดว่าจะมีประโยชน์จากข้อมูลในฐานข้อมูล ซึ่งเทคนิคในการทำ data mining มีหลายวิธี เช่น การสร้าง association rules (การค้นหาความสัมพันธ์ระหว่างข้อมูล) , การแบ่งกลุ่มข้อมูลหรือการจำแนกข้อมูล (classification , clustering) , summerization และ sequential pattern discovery เป็นต้น

เทคนิคได้รับความนิยมอย่างมากคือ การค้นหาความสัมพันธ์ระหว่างข้อมูลที่เรียกว่า items ในฐานข้อมูล (Association Rules Discovery) ซึ่งได้รับการพัฒนาขึ้นครั้งแรกโดยนักวิจัยจากศูนย์วิจัย IBM Almaden ประเทศสหรัฐอเมริกาในปี 1993 โดยการค้นหาความสัมพันธ์ที่เกิดขึ้นนี้จะมีทั้ง การให้ความสนใจไปที่การค้นหาโครงสร้างข้อมูลที่เหมาะสมที่มีประสิทธิภาพทั้งทางด้านความเร็วในการค้นหา Association Rules และความประหยัดของเนื้อที่ในหน่วยความจำที่ใช้สำหรับค้นหา Association Rules และการให้ความสนใจที่เทคนิคในการนับเพื่อหาข้อมูลที่สำคับให้ได้รวดเร็วขึ้น

Association Rules (กฎการเชื่อมโยง)

แสดงความสัมพันธ์ของเหตุการณ์หรือวัตุ ที่เกิดขึ้นพร้อมกัน ตัวอย่างของการประยุกต์ใช้กฎการเชื่อมโยง เช่น การวิเคราะห์ข้อมูลการขายสินค้า โดยเก็บข้อมูลจาก ระบบ ณ จุดขาย(POS) หรือร้านค้าออนไลน์ แล้วพิจรณาสินค้าที่ผู้ซื้อมักจะซื้อพร้อมกัน เช่น ถ้าพบว่าคนที่ซื้อเทปวิดิโอมักซื้อเทปกาวด้วย ร้านค้าก็อาจจะจัดร้านให้มีสินค้าสองอย่างอยู่ใกล้เคียงกัน เพื่อเพิ่มยอดขาย หรืออาจพบว่าหลังจากคนซื้อหนังสือ ก แล้ว มักจะซื้อหนังสือ ข ด้วย ก็สามารถนำความรู้นี้ไปแนะนำผู้ที่กำลังจะซื้อหนังสือ ก ได้ เช่น วิธี Apriori

ขั้นตอนการสร้าง Association Rulse มีขั้นตอนหลักอยู่สองขั้นตอนดังนี้

1. การหา Frequent Itemsets ซึ่งเป็น Itemsets ที่มีความถี่หรือค่าสนับสนุน (Support) มากกว่าหรือเท่ากับค่าความถี่ขั้นต่ำ (Minimum Support) ส่วน Itemsets ที่มีความถี่น้อยกว่าค่าความถี่ขั้นต่ำ จะเรียกว่า Rare Itemsets

2. การสร้าง Association Rules จาก Frequent Itemsets ที่ได้จากการดำเนินการในขั้นตอนที่ 1 และจะยอมรับ Assocition Rules ที่สร้างขึ้นมาก็ต่อเมื่อ กฎนี้มีค่าความเชื่อมั่น (Confidence) มากกว่า หรือเท่ากับ ค่าความเชื่อมั่นขั้นต่ำ (minimum Confidence)

Data classification (การแบ่งประเภทข้อมูล หรือ การจำแนกกลุ่ม)

หากกฎเพื่อระบุประเภทของวัตถุจากคุณสมบัติของวัตถุ เช่น หาความสัมพันธ์ระหว่างผลการตรวจร่างกายต่างๆกับการเกิดโรค โดยใช้ข้อมูลผู้ป่วยและการวินิจฉัยของแพทย์ที่เก็บไว้ เพื่อนำมาช่วยวินิจฉัยโรคของผู้ป่วย หรือการวิจัยทางการแพทย์ ในทางธุรกิจจะใช้เพื่อดูคุณสมบัติของผู้ที่จะก่อหนี้ดีหรือหนี้เสีย เพื่อประกอบการพิจรณาของการอนุมัติเงินกู้ เช่น วิธี ID3 , C5.0 , CART, CHAID และ Neural Network

Data clustering (การแบ่งกลุ่มข้อมูล)

การแบ่งข้อมูลที่มีลักษณะคล้ายกันออกมาเป็นกลุ่ม แบ่งกลุ่มผู้ป่วยที่เป็นโรคเดียวกันตามลักษณะอาการ เพื่อนำไปใช้ประโยชน์ในการวิเคราะห์หาสาเหตุของโรค โดยพิจรณาจากผู้ป่วยที่มีอาการคล้ายคลึงกัน เช่น วิธี K-Means Clustering และ Selft-Organizing Map (SOM)

Visualization (จินตทัศน์)

สร้างภาพคอมพิวเตอร์กราฟิกที่สามารถนำเสนอข้อมูลมากมายอย่างครบถ้วนแทนการใช้ข้อความนำเสนอข้อมูลที่มากมาย เราอาจพบข้อมูลที่ซ่อนเร้นเมื่อดูข้อมูลชุดนั้นด้วยจินตทัศน์

ขั้นตอนการทำงานของเหมืองข้อมูล

ขั้นตอนการทำเหมืองข้อมูลมีการแบ่งขั้นตอนการทำงานที่ต่างกันไปตามทฤษฎีที่ผู้จัดการเหมืองข้อมูลแต่ละคนใช้อ้างอิง ดังนั้นจึงไม่มีขั้นตอนการทำงานของเหมืองข้อมูลที่แน่นอน แต่สามารถแบ่งขั้นตอนการทำงานของเหมืองข้อมูลคร่าวๆได้ดังนี้

1.เรียนรู้ขอบเขตของการประยุกต์ใช้เหมืองข้อมูล (Learning)

2.สร้างชุดของข้อมูลจากกลุ่มข้อมูลที่ได้เลือกไว้ (Data Selection)

3.ตัดข้อมูลที่ไม่สำคัญออกไป (Data Cleaning)

4.แปลงข้อมูลให้อยู่ในรูปที่สามารถนำไปใช้งานได้ (Data Reduction and Transformation)

5.เลือกวิธีการจัดการเหมืองข้อมูล (Choosing Function of Data Mining)

6.เลือกอัลกอริทึมที่ใช้จัดการ (Choosing the Mining Algorithm)

7.ใช้ความรู้ที่ได้นำไปสร้าง Model (User of Discovered Knowledge)

หรือ

1.ทำความเข้าใจปัญหา

2.ทำความเข้าใจข้อมูล

3.เตรียมข้อมูล

4.สร้างแบบจำลอง

5.ประเมิน

6.นำไปใช้งาน

หัวข้อต่างที่น่าสนใจ เกี่ยวกับ data mining

- ความรู้เบื้องต้นเกี่ยวกับเหมืองข้อมูลและการค้นพบความรู้

- ฐานข้อมูลและคลังข้อมูล

- โครงสร้างข้อมูล

- การค้นพบและวิเคราะห์รูปแบบ

- เทคนิกการวิเคราะห์ข้อมูล

- กฎแห่งความสัมพันธ์

- ระบบประสาทเทียม

- ขบวนการแบบต้นไม้

- ขบวนการแบบคลัสเตอร์และคลาสซิฟิเคชั่น

- ขบวนการแบบถดถอย

- ประเด็นปัญหาการโอเวอร์ฟิตติ้งและอินเฟอเรนเชียล

- การประยุกต์ใช้เหมืองข้อมูล

- ศึกษางานวิจัยและพัฒนาอื่น ๆ ในปัจจุบัน อันเกี่ยวข้องกับเหมืองข้อมูลและการค้นพบความรู้

กฏการเชื่อมโยง ( Association_rule )

เป็นการแสดงความสัมพันธ์ของข้อมูลหรือวัตถุ ที่เกิดขึ้นพร้อมกันเช่น การวิเคราะห์ข้อมูลการขายสินค้า โดยเก็บข้อมูลจากระบบ ณ จุดขาย (POS) หรือระบบขายสินค้าออนไลน์และพิจรณาสินค้าที่อยู่ในตระกร้าเดียวกันหรือผู้ซื้อมักซื้อพร้อมกัน เช่น ถ้าพบว่า คนที่ซื้อเทปวิดีโอมักจะซื้อเทปกาวด้วย ร้านค้าก็อาจจะจัดร้านให้สินค้าสองอย่างอยู่ใกล้กัน เพื่อเพิ่มยอดขาย หรือ อาจจะพบว่า คนที่ซื้อหนังสือ A แล้ว หลังจากนั้นมักจะซื้อหนังสือ B ก็สามารถนำกฏนี้ไปแนะนำผู้ที่กำลังซื้อหนังสือ A ได้

ลักษณะข้อมูลที่ต้องการของการหากฏเชื่อมโยง

เป็นการวิเคราะห์หาความสัมพันธ์ระหว่างสิ่งมากกว่าหนึ่งสิ่งที่มีการบันทึกร่วมกันในหนึ่งแถวของข้อมูล
ข้อมูลที่นำมาใช้วิเคราะห์มักมีลักษณะเป็น transaction กล่าวคือหนึ่งระเบียนข้อมูลคือความสัมพันธ์ของลักษณะประจำ(ตัวแปร)หนึ่งรูปแบบ
การวิเคราะห์รูปแบบนี้ไม่มีลักษณะประจำเป้าหมาย
ลักษณะประจำนำเข้าเป็ฯตัวแปรทวิภาค หรือตัวแปรที่มีค่าที่ไม่ต่อเนื่อง
ในกรณีที่ลักษณะประจำมีค่าที่ต่อเนื่อง โปรแกรมจำเป็นต้องแปลงเป็นค่าไม่ต่อเนื่องก่อนการคำนวณ ซึ่งอาจทำโดยมนุษหรือใช้เครื่องคอมพิวเตอร์แปลงแบบอัตโนมัติ

การติดตั้งโปรเเกรม Weka

Download File จาก http://www.cs.waikato.ac.nz/ml/weka/

เมื่อรันหน้าจอโปรแกรม Weka ขึ้นมา ให้คลิกที่ Next เพื่อประมวลผลต่อไป

คลิกที่ I Agree เพื่อแสดงการยอมรับ จากนั้นโปรแกรมจะประมวลผลหน้าถัดไป

จากภาพนี้ คลิกที่ Next เพื่อทำการ Install

เลือกสถานที่ที่ต้องการเก็บโปรแกรม ในกรณีนี้จะเลือก C:\ จากนั้นคลิกที่ Next

เพื่อดำเนินการต่อไป

คลิก Install เพื่อเริ่มต้นการติดตั้งโปรแกรม

ภาพนี้จะแสดงการประมวลผลการติดตั้งโปรแกรม

จากภาพที่แล้ว เมื่อประมวลผลเสร็จแล้ว จะแสดงหน้าจอนี้ขึ้นมา เราไม่ต้องคลิกปิด

เพราะหน้าจอนี้จะถูกปิดโดยอัตโนมัติหลังจากการติดตั้งเสร็จเรียบร้อย

หน้าจอนี้จะแสดงขึ้นมาเพื่อบอกให้ทราบว่าโปรแกรมกำลังจะติดตั้ง

ถ้าหากต้องการยกเลิกการติดตั้งให้คลิกที่ Cancel

ถ้าต้องการยกเลิกการติดตั้งโปรแกรม คลิกที่ Cancel

คลิกที่ Accept เพื่อยอมรับและดำเนินการต่อ

โปรแกรมทำการติดตั้งลงสู่ C:\

คลิกที่ Finish เพื่อเป็นการยืนยันการติดตั้งโปรแกรมเสร็จเรียบร้อย

ภาพนี้เป็นภาพเดียวกับรูปภาพที่ 10 ที่แสดงให้เห็นว่าการดำเนินการเสร็จแล้ว

ก่อนที่จะไปยังรูปภาพที่ 11 แต่สำหรับรูปภาพที่ 17 นี้เป็นการดำเนินการ

หลังจากรูปภาพที่ 16 โดยคลิกที่ Next

แสดงให้การถึงการติดตั้งโปรแกรม Weka ที่เสร็จสิ้นสมบูรณ์แล้ว ตรง Start Weka

ที่ถูกเช็คไว้ เพื่อให้รันหน้าจอโปรแกรม Weka 3.5.8 ถ้าไม่ต้องการให้รันโปรแกรมในขณะนี้

ให้คลิกเพื่อให้เครื่องหมายนั้นหายไป สุดท้ายให้คลิกที่ Finish

แสดงการเปิดโปรแกรม Weka 3.5.8

แสดงการหน้าจอการทำงานของโปรแกรม Weka3.5.8

จบการลงโปรเเกรมWeka คับ

Test options – แนวทางการทดสอบ

สมมุติว่ามีข้อมูลอยู่ 100 ชุด

1. Use training set คือ การใช้ข้อมูล 100 ชุดในการ train และใช้ข้อมูล 100 ชุดนั้นในการ test (ผลก็จะออกมาดีเพราะมีการเรียนรู้ไปแล้ว)

2. Supplied test set คือ การแบ่งข้อมูลที่ใช้ในการ train และ test ด้วยตนเอง ทั้งวิธีการแบ่งและจำนวนที่แบ่ง เช่น แบ่งข้อมูล 65 ชุดแรกเพื่อใช้ในการ train และข้อมูล 35 ชุดหลังเพื่อใช้ในการ test เป็นต้น

3. Cross-validation Folds … (ใส่ตัวเลขเข้าไป) คือ การแบ่งข้อมูลแบบสุ่มออกเป็นจำนวนกลุ่มตามตัวเลขที่เราใส่เข้าไป เช่น ใส่เลข 20 ก็แปลว่ามีการแบ่งข้อมูลออกเป็น 20 กลุ่ม กลุ่มละ 5 ชุดข้อมูล แล้วทำการทดสอบ 20 รอบ โดยรอบที่ 1 คือ การเอาข้อมูลกลุ่มที่ 1 ออกเพื่อใช้ในการ test และใช้กลุ่มข้อมูลที่ 2-20 ในการ train ส่วนรอบที่ 2 คือ การเอาข้อมูลกลุ่มที่ 2 ออกเพื่อใช้ในการ test และใช้กลุ่มข้อมูลที่ 1, 3-20 ในการ train ดังนั้น รอบที่ 20 คือ การเอาข้อมูลกลุ่มที่ 20 ออกเพื่อใช้ในการ test และใช้กลุ่มข้อมูลที่ 1-19 ในการ train

—หากใส่ตัวเลข 100 เข้าไป แปลว่า ทำการทดสอบ 100 รอบ โดยเอาชุดข้อมูลออก 1 ชุด เพื่อใช้ในการ test แล้วใช้ชุดข้อมูลที่เหลือทำการ train และเปลี่ยนชุดข้อมูลที่ test จนครบทั้ง 100 ชุดข้อมูล มีชื่อเรียกอีกชื่อหนึ่งว่า leave one out ซึ่งเหมาะกับการทำการทดลองที่มีชุดข้อมูลจำนวนน้อย หากมีชุดข้อมูลจำนวนมาก การแบ่งเป็น 10-20 กลุ่มข้อมูลก็อาจจะเพียงพอ เนื่องจากตัวเลขกลุ่มข้อมูลที่มากขึ้นจะให้ผลลัพธ์ที่แม่นยำมากยิ่งขึ้น แต่ก็ใช้เวลาในการทดลองนานยิ่งขึ้นเช่นกัน

4. Percentage split คือ การแบ่งข้อมูลแบบสุ่มด้วยการแบ่งเปอร์เซ็นต์ เช่น หากแบ่งออกเป็น 10% ก็หมายถึง เลือกข้อมูลแบบสุ่มออกมา 90 ชุดเพื่อใช้ในการ train และใช้ข้อมูลอีก 10 ชุดที่เหลือในการ test