สรุป course exploratory-data-analysis-in-sql ตอนที่ 1

1️⃣ ขั้นตอนที่จำเป็นก่อนจะเริ่มงานเขียนโปรแกรม มีขั้นตอนหลักๆ อยู่ 5 ขั้นตอน
การเก็บ requirment
การออกแบบระบบ
การพัฒนาระบบ
การทดสอบระบบ
การติดตั้งระบบ
ขั้นตอนเหล่านี้ จะเกิดข้อมูลหลังจากที่ได้พัฒนาเสร็จแล้ว ตามระบบที่วางและออกแบบเอาไว้

2️⃣ แต่ถ้าเป็นงานทางด้านข้อมูลล่ะ? มักเป็นการโยนข้อมูลมาให้ทำในทันทีพร้อมให้โจทย์ว่าอยากได้อะไร ขั้นตอนแรกที่จะต้องทำเลยก็คือ การสำรวจข้อมูล หรือ Exploration Data Analysis (EDA)
ช่วยให้เข้าใจข้อมูลได้ดียิ่งขึ้น EDA เป็นกระบวนการสำรวจข้อมูลเบื้องต้น เพื่อทำความรู้จักกับข้อมูลที่มีอยู่ โดยพิจารณาข้อมูลในมุมมองต่างๆ เช่น ข้อมูลเชิงพรรณนา ข้อมูลเชิงสถิติ และข้อมูลเชิงความสัมพันธ์ การทำ EDA ช่วยให้สามารถมองเห็นภาพรวมของข้อมูล และเข้าใจความสัมพันธ์ระหว่างตัวแปรต่างๆ
ระบุปัญหาและข้อผิดพลาดในข้อมูล EDA ช่วยให้สามารถระบุปัญหาและข้อผิดพลาดในข้อมูล เช่น ข้อมูลสูญหาย ข้อมูลไม่ถูกต้อง หรือข้อมูลขัดแย้งกัน การระบุปัญหาและข้อผิดพลาดในข้อมูลจะช่วยให้สามารถปรับปรุงคุณภาพของข้อมูลได้
ค้นพบข้อมูลเชิงลึกใหม่ๆ EDA ช่วยให้สามารถค้นพบข้อมูลเชิงลึกใหม่ๆ ที่ซ่อนอยู่ในข้อมูล ซึ่งอาจนำไปสู่การปรับปรุงกระบวนการทำงานหรือการตัดสินใจ ตัวอย่างเช่น การทำ EDA อาจช่วยให้สามารถค้นพบความสัมพันธ์ระหว่างตัวแปรต่างๆ ที่ไม่เคยคาดคิดมาก่อน

3️⃣ ลองมายกตัวอย่างดูกันบ้าง
สมมติว่า บริษัทแห่งหนึ่งต้องการทำการวิเคราะห์ข้อมูลลูกค้าเพื่อหาแนวทางปรับปรุงผลิตภัณฑ์และบริการ และสมมว่า บริษัทนี้มาว่าจ้างคุณให้วิเคราะห์ข้อมูลบางอย่าง ขั้นตอนต่างๆอะไรบ้างที่คุณจะต้องทำ

4️⃣ มาดูกระบวนการต่างๆที่จะต้องจัดการข้อมูลเหล่านั้น ให้เหมาะกับการนำไปใช้งานต่อไป มีดังต่อไปนี้
ตรวจสอบว่าฐานข้อมูลของบริษัทนี้ เป็นประเภทไหน มีอะไรบ้าง เช่น PostgresSQL, MySQL, MongoDB หรือ เป็นแบบ Excel, CSV ไฟล์ เป็นต้น
มี ER Diagram หรือ มี แผนภาพต่างๆที่เราสามารถเข้าใจความสัมพันธ์ต่างๆ หรือไม่
ถ้าไม่มีสิ่งเหล่านี้จะต้องทำการ EDA ข้อมูลขึ้นมาเพื่อดูลักษณะของข้อมูล และ ความสัมพันธ์ของข้อมูล

5️⃣ในกระบวนการ EDA มักจะมีขั้นตอนซ้ำๆ ให้จัดการข้อมูลอยู่เสมอ ได้แก่
การเช็คจำนวนแถวของข้อมูลใน Database ไม่ว่าจะมีกี่ตารางก็ตามลองสำรวจดูว่ามีเท่าไรเพื่อทำในขั้นตอนถัดไป
การตรวจสอบว่ามีค่า Null หรือ ค่าว่างหรือไม่
การตรวจสอบ ประเภทของข้อมูล หรือ ดูว่าแต่ละ column หน้าตาเป็นอย่างไร ไม่ว่าจะเป็น Numeric, Character, DateTime, Boolean บ้างครั้ง อาจจะมี Object แบบ Unstructure Data เช่น JSON, Base64 ก็ได้
การดูความสัมพันธ์ในตารางว่าเป็นอย่างไร มี column ไหนเป็น primary key, foreign key บ้าง
แสดงความคิดเห็น
โปรดศึกษาและยอมรับนโยบายข้อมูลส่วนบุคคลก่อนเริ่มใช้งาน อ่านเพิ่มเติมได้ที่นี่