ผมมี dataset ชุดนึงอยู่ ประมาณ 3 แสนเรคคอร์ด
ผมต้องการทำนาย ฟิลด์ๆนึง เป็นตัวเลขล้วนๆ มีค่าอยู่ในช่วง 0-100
แต่ค่าส่วนมากมันจะไปกองๆแถวๆ 20-30 โดยค่าที่เกิน 50 ขึ้นไป มีอยู่แค่ 10-15%
ผมจะตัดค่าที่นอกกลุ่มมากๆ ซึ่งจำนวนน้อยนี่ออกไป เพราะมันคงทำนายไม่ได้อยู่แล้ว
แต่ปัญหาคือผมไม่แน่ใจว่าจะใช้เกณฑ์อะไรในการระบุค่าที่เป็น Outlier นี้ดีครับ
คือ ผมไม่เคยเรียนสถิติมาก่อนครับ อาศัยแต่อ่านเอง แค่พอรู้จักว่า Mean กับ S.D. คืออะไร
ตอนนี้ผมใช้เกณฑ์ Mean - 3* S.D. จนถึง Mean + 3*S.D. นอกเหนือจากนี้เป็น outlier
เพราะเมื่อก่อนเคยอ่านเจอในเรื่อง z-score , t-score มันเป็นการแปลงให้อยู่ในรูป normal distribution เลยคิดว่ามันน่าจะได้ผลดี น่าจะใช้กรอง outlier ออกไปได้ แต่ไม่แน่ใจว่ามันโอเคแล้วหรือยัง
[Data Mining] ผมใช้ Mean กับ S.D. ในการระบุ Outlier แบบนี้ถือว่าดีแล้วหรือเปล่าครับ
ผมต้องการทำนาย ฟิลด์ๆนึง เป็นตัวเลขล้วนๆ มีค่าอยู่ในช่วง 0-100
แต่ค่าส่วนมากมันจะไปกองๆแถวๆ 20-30 โดยค่าที่เกิน 50 ขึ้นไป มีอยู่แค่ 10-15%
ผมจะตัดค่าที่นอกกลุ่มมากๆ ซึ่งจำนวนน้อยนี่ออกไป เพราะมันคงทำนายไม่ได้อยู่แล้ว
แต่ปัญหาคือผมไม่แน่ใจว่าจะใช้เกณฑ์อะไรในการระบุค่าที่เป็น Outlier นี้ดีครับ
คือ ผมไม่เคยเรียนสถิติมาก่อนครับ อาศัยแต่อ่านเอง แค่พอรู้จักว่า Mean กับ S.D. คืออะไร
ตอนนี้ผมใช้เกณฑ์ Mean - 3* S.D. จนถึง Mean + 3*S.D. นอกเหนือจากนี้เป็น outlier
เพราะเมื่อก่อนเคยอ่านเจอในเรื่อง z-score , t-score มันเป็นการแปลงให้อยู่ในรูป normal distribution เลยคิดว่ามันน่าจะได้ผลดี น่าจะใช้กรอง outlier ออกไปได้ แต่ไม่แน่ใจว่ามันโอเคแล้วหรือยัง