เมื่อฉันเป็น Data Scientist (ฉบับเข้าใจง่าย)

สวัสดี เพื่อนสมาชิก Pantip ค่ะ ขอแนะนำตัวก่อนนะคะ ชื่อ “แป้ง” ค่ะ ปัจจุบันทำงานเป็น Data Scientist และ เป็นหนึ่งในผู้ก่อนตั้งบริษัทที่ทำงานเกี่ยวกับการออกแบบโมเดล และการวิเคราะห์ข้อมูล มีประสบการณ์เกี่ยวกับการทำงาน Big Data มาระดับหนึ่ง ซึ่งแนวโน้มของ Big Data กำลังมาแรงมาทั้งในและต่างประเทศ วันนี้ก็เลยอยากมาเล่าประสบการณ์ส่วนตัวให้อ่านสนุกๆ ค่ะ

เกริ่นก่อนว่า แป้งจะพยายามเล่าทุกอย่างให้เข้าใจง่าย ไม่เน้นเทคนิค หรือสมการใดๆ เกินควรนะคะ โดยจะมีวงเล็บเอาไว้ในกรณีที่เป็นเทคนิคมากๆ [Spoil] คลิกเพื่อดูข้อความที่ซ่อนไว้ เผื่อใครต้องการศึกษาค่ะ

เริ่มกันที่ประวัติส่วนตัวค่ะ เป็นที่มาที่ไปว่า กว่าจะเป็น Data Scientist ได้ แป้งต้องผ่านการเรียนอะไรมาบ้าง

แป้งจบปริญญาตรีด้านวิศวกรรมเคมีค่ะ เนื่องจากสมัยเอ็นทรานซ์ แป้งทำคะแนนวิชาเคมีได้ดี ตอนนั้นก็เลยเลือกเรียนวิชานี้ แต่พอเรียนไปเรื่อยๆ รู้สึกไม่ค่อยเหมาะกับตัวเองเท่าไหร่ จึงเปลี่ยนใจไปเรียน Industrial Engineering เอก Operations Research ที่เมกาค่ะ และได้รู้จักกับวิชา Optimization หรือ การหาจุดสมดุล

การเรียนการสอน ของมหาวิทยาลัยที่เมกา จะเป็นแนวต้องพิสูจน์ ต้องเข้าใจคณิตศาสตร์เชิงลึก ความรู้ด้านสถิติ ความน่าจะเป็น คณิตศาสตร์ต้องแน่น ต้องฝึกเขียนสมการ สร้างโมเดลตัวเลขด้วยตัวเองให้ได้ แล้วจึงค่อยไปใช้คอมพิวเตอร์คำนวณแก้ปัญหา ก็ไม่รู้ตัวเองซาดิส หรืออะไร รู้สึกชอบมากเลยค่ะ วิชา Optimization จะสอนให้เราเขียนสมการ โดยมีจุดประสงค์ของปัญหา และเงื่อนไขต่างๆ เช่น ต้องการหาเวลาในการเดินทางไปหลายๆ เมืองให้เร็วที่สุด โดยมีเงื่อนไขคือ เดินทางได้วันละ 8 ชั่วโมง และหากเดินทางเกิน 5 ชั่วโมงต้องหยุดพัก ซึ่งแต่ละเมืองจะมีให้เลือกหลายทาง เป็นต้น หนึ่งในโปรเจคจบของแป้งทำเรื่องโมเดลการคำนวณจุด Optimum ของเสาปล่อยสัญญาณ Wifi สำหรับรถไฟ เมื่อรถไฟเคลื่อนไปข้างหน้า จะต้องใช้เวลาประมาณนึงในการเปลี่ยนเสาสัญญาณ เพราะฉะนั้นโจทย์ของเรา คือ เราควรจะวางแผนการติดตั้งเสาสัญญาณอย่างไร

จากประสบการณ์ของแป้ง Optimization ถูกใช้ในทุกๆ ธุรกิจ ขึ้นอยู่กับว่า มุมมอง และนโยบายของธุรกิจนั้น ตีโจทย์ออกหรือไม่ ตัวอย่างเช่น ธุรกิจการบิน เคยสงสัยมั้ยคะ ว่า บริษัทการบินเขาจัดตารางบินให้พนักงานอย่างไร ซึ่งพนักงานแต่ละคนจะต้องมี License ในแต่ละชนิดของเครื่องบิน และมีเงื่อนไขของการพักผ่อน เช่นบินเกิน 13 ชั่วโมง ต้องพัก 3 วัน เป็นต้น โดยโจทย์หลักที่ต้องแก้ คือ ชั่วโมงบินรวมทั้งหมดของพนักงานแต่ละคน ต้องใกล้เคียงกัน และยังรวมไปถึงการคำนวณเส้นทางการบิน การเลือกชนิดของเครื่องบิน และอีกมากมาย นี้แหละค่ะ หน้าที่ของ Optimization



ต่อมานะคะ แป้งใช้เวลาเรียน 1 ปี 4 เดือน ในการเรียนปริญญาโท ตอนนั้นรู้สึกเรายังมีไฟในการเรียนอยู่ ก็เลยยื่นใบสมัครเรียนต่อปริญญาเอกค่ะ แล้วก็โชคดีมาก ที่ได้รับเลือกเป็นนักเรียนทุนของ The US national science foundation ซึ่งก็ยังยืนยันจะเรียน Operations Research ต่อ แต่คราวนี้วิชาเอกของแป้งเปลี่ยนไปเป็น Data Mining ค่ะ วิชานี้จะเป็นการเขียนโมเดลอีกแบบนึง โดยอาศัยการสร้างสมการจากข้อมูลใหญ่ๆ โมเดลที่เราพบเห็น และใช้งานใกล้ตัว เช่น การพยากรณ์อากาศ หรือ Credit scoring เป็นต้น จริงๆ แล้วเหตุผลที่แป้งได้รับทุน ก็เพราะเขาต้องการหานักศึกษาที่มีความรู้ด้าน Optimization มาทำวิจัยเรื่อง “สถานที่สร้างสถานีชาร์ตรถไฟฟ้าชนิตเสียบปลั๊ก” หรือ Plug-In Hybrid Electric Vehicle Location โดยการแก้โจทย์นี้ ต้องทำวิจัยเกี่ยวกับข้อมูลขนาดใหญ่มหาศาล และต้องมีความรู้เรื่องไฟฟ้าเข้ามาประกอบค่ะ

เนื่องจากมันเป็นงานวิจัยที่ซึ่งอาจจะมีเรื่องลิขสิทธิ์ ดังนั้นแป้งจะขอเล่าให้เห็นภาพคร่าวๆ ไม่ลงรายละเอียดมากนักนะคะ

โจทย์คือ จะสร้างที่ไหน สั้นๆ แค่นั้นแหละค่ะ แต่ในความเป็นจริง เราต้องคิดให้เยอะกว่านั้นมากมาย เช่น แต่ละสถานีควรมีช่องสำหรับการชาร์ตเท่าไร ขนาดของแบตเตอรี่ และควรเลือกใช้แบตชนิดไหน พลังงานนำเข้ามาจากแหล่งใดบ้าง ลงทุนสร้างเท่าไหร่ คืนทุนกี่ปี ประมาณนี้ ในทีมจะแบ่งออกเป็น 3 ฝ่ายค่ะ มีวิศวกรไฟฟ้า มาช่วยดูเรื่องเกี่ยวกับกลไกของพลังงาน และมี Data Scientist อีกคนมาช่วยดูเรื่องของ Demand Forecasting ส่วนที่เหลือเป็นหน้าที่ของแป้ง ในโพสนี้ แป้งจะเล่าเฉพาะส่วนของแป้งนะคะ



เทคนิคค่ะ >>> [Spoil] คลิกเพื่อดูข้อความที่ซ่อนไว้

ก่อนอื่น เราต้องพิจารณาก่อนว่าในอนาคตจะมี Demand ของรถประเภทนี้มากน้อยเพียงใด ซึ่งในประเทศอเมริกา เขามักจะสร้างผังเมืองให้ประชากรอยู่อาศัยในแถบนอกเมือง และเดินทางด้วยรถโดยสารเข้ามาในเมือง ที่เรียกว่า Downtown ดังนั้น การเลือกสร้างสถานีรถไฟฟ้าให้ครอบคลุมกับลักษณะการเดินทางของประชากรของเขา ซึ่งจากภาพประกอบจะเห็นได้ว่า หากสร้างติดกัน ก็จะมีบางส่วนที่แย่งลูกค้ากัน แต่ถ้าสร้างห่างกันจนเกินไป ก็จะเสียลูกค้าส่วนมุมอับนั้นไป



ต่อมา ก็มาพิจารณาถึงแหล่งพลังงาน ซึ่งจะมีได้จาก 1. ซื้อจาก Grid 2. ซื้อพลังงานจากกังหันลม (Wind Farm) 3. ติดตั้งพลังงานแสงอาทิตย์ โดยที่พลังงานทั้งหมด จะนำมาใส่ไว้ที่แบตเตอรี่ก่อน หรือส่งพลังงานให้กับลูกค้าโดยตรงเลยก็ได้



เทคนิคค่ะ >>> [Spoil] คลิกเพื่อดูข้อความที่ซ่อนไว้

เหตุผลที่เราต้องทำ Data Mining เพราะเราต้องมีสร้างสมการการทำนาย หรือ Predictive Model ของตัวแปร อันได้แก่ พลังงานกังหันลม พลังงานไฟฟ้า ปริมาณความต้องการของลูกค้า และค่าไฟในแต่ละช่วงเวลา ซึ่งค่าไฟที่ประเทศอเมริกา ขึ้นลงทุก 15 นาที และมีอัตราผันผวนค่อนข้างสูง โดยที่เราสามารถซื้อและขายพลังงานได้ ดังนั้นโมเดลของเราจึงต้องพิจารณาการซื้อขายที่ให้กำไรกับตัวสถานีด้วย

แป้งใช้เวลาประมาณ 3 ปีกว่า จบปริญญาเอก และต่อ Post-Doc อีกเทอมนึง ก็ตัดสินใจบินกลับประเทศไทย หลายคนอาจจะมองว่าการที่แป้งอยู่ประเทศอเมริกาต่อ อาจจะได้ใช้ความรู้ความสามารถได้เต็มที่กว่า แต่แป้งคิดกลับกันค่ะ แป้งคิดว่าสิ่งต่างๆ ที่แป้งได้เรียนรู้มา มันจะมีประโยชน์กับประเทศไทยได้มากทีเดียว และที่สำคัญ คือ ครอบครัวของแป้งอยู่ที่ประเทศไทยค่ะ ((อันนี้ ความคิดเห็นส่วนตัวนะคะ))

((ยังมีต่อนะ))

>>>>> ปล. ขอบคุณที่เข้ามาอ่านเรื่องราวของแป้งนะคะ หากมีข้อเสนอแนะ ติชมอย่างไร แป้งยินดีแก้ไข และรับฟังค่ะ  สามารถติดตาม และให้กำลังใจแป้งได้ ที่ >>> [Spoil] คลิกเพื่อดูข้อความที่ซ่อนไว้
แก้ไขข้อความเมื่อ

แสดงความคิดเห็น
Preview
โปรดศึกษาและยอมรับนโยบายข้อมูลส่วนบุคคลก่อนเริ่มใช้งาน อ่านเพิ่มเติมได้ที่นี่