วิชา AI 123 ความรู้เบื้องต้นเกี่ยวกับ AI
AI อย่าง ChatGPT มีบทบาทอย่างไรในเรื่องการเรียนรู้ ปรับบุคลิก และการพัฒนาเวอร์ชันใหม่
1. การเปลี่ยนบุคลิก / Character / Memory
บุคลิก (Character / Persona) ที่ผู้ใช้เห็น เช่น น้ำเสียง สุภาพ สนุก เคร่งขรึม → ปกติ ถูกออกแบบโดยนักพัฒนา ผ่าน prompt engineering, system message, fine-tuning
Memory (ความจำ): รุ่นใหม่ ๆ บางครั้งจะมี memory system ที่จำสิ่งที่ผู้ใช้บอกในบทสนทนาก่อนหน้า แล้วปรับการตอบให้สอดคล้อง แต่ ไม่ใช่การ train ใหม่ในทันที เป็นการเก็บ note ภายใน session หรือ account เท่านั้น
Coding style: AI สามารถ “เลียนแบบ” สไตล์การเขียนโค้ดจากตัวอย่างที่ผู้ใช้ให้ แต่ไม่ได้แปลว่ามัน เขียนโค้ดแบบใหม่ ๆ เข้าสู่สมองตัวเอง ยกเว้นนักพัฒนาจะนำข้อมูลนั้นไปใช้จริงในการฝึกฝนเพิ่มเติม (fine-tune / retrain)
2. Logfile การสนทนา
การสนทนาของผู้ใช้ (conversation logs) อาจถูกเก็บ โดยผู้พัฒนา (OpenAI)
AI ตัวเองไม่ได้ “นั่งวิเคราะห์ log แล้วเรียนรู้ทันที” แต่:
Logs อาจถูกนำไปสุ่มเลือก → ให้ทีมมนุษย์ (annotators) มาดูว่าตอบดีไหม
จากนั้นนำ feedback นี้ → ใช้ฝึก AI รุ่นใหม่ (เช่น RLHF = Reinforcement Learning from Human Feedback)
ดังนั้น AI ที่คุณคุยตอนนี้ไม่ได้อ่าน log ทั้งหมดโดยตรง แต่ log อาจถูกใช้เป็น dataset ภายหลัง
3. บทบาทของ AI ในการพัฒนา AI รุ่นใหม่
ปัจจุบัน การสร้างเวอร์ชันใหม่ใช้ มนุษย์เป็นหลัก (นักวิจัย, วิศวกร)
แต่ AI มีบทบาทใน กระบวนการช่วยพัฒนา เช่น
AI รุ่นเก่า ๆ ถูกใช้ตรวจสอบคุณภาพคำตอบของ AI รุ่นใหม่ (AI critic / evaluator)
AI ถูกใช้ช่วยสร้าง synthetic data (ข้อมูลจำลอง) เพื่อฝึก AI รุ่นใหม่
AI ช่วยวิเคราะห์ log ว่ามี pattern อะไรที่ควรปรับปรุง (เช่น คำตอบไม่ตรง คำตอบยาวเกิน หรืออันตราย)
เรียกว่า AI เริ่มกลายเป็น “เครื่องมือช่วยวิจัยตัวเอง” (AI-assisted AI development) แต่ ยังมีมนุษย์เป็นผู้ควบคุมหลัก
4. ความรู้ของ AI
Knowledge ของ ChatGPT มาจาก:
ฐานข้อมูลที่ train จากอินเทอร์เน็ต + เอกสารที่ได้รับอนุญาต
Fine-tuning จาก feedback ของมนุษย์
บางรุ่นมี retrieval เชื่อมกับ web หรือฐานข้อมูลสด
AI ไม่ได้อัปเดตตัวเอง ความรู้ใหม่ต้องมาจากการ train / fine-tune โดยนักพัฒนา
✨ สรุปสั้น ๆ
ChatGPT ไม่ได้ “เรียนรู้ทันที” จากคุณ แต่ log อาจถูกนำไปช่วย train รุ่นใหม่
AI มีบทบาทช่วยประเมินและสร้างข้อมูลให้การ train แต่ มนุษย์ควบคุมการพัฒนา
บุคลิก / memory เปลี่ยนได้จากการตั้งค่าและ fine-tune โดยผู้พัฒนา ไม่ใช่จากแค่การถามตอบ
1. กลไกต้นทุนของการพัฒนา AI ใหญ่ (เช่น ChatGPT, Claude, Gemini)
การสร้าง LLM ระดับ GPT-4/5 กินทรัพยากรในหลายมิติ:
⏳ เวลา
ฝึก (pretraining): หลายสัปดาห์ – หลายเดือน ต่อรอบ train
fine-tuning และ RLHF: เพิ่มอีกหลายสัปดาห์ (เพราะต้องใช้มนุษย์ช่วย feedback)
⚡ พลังงาน
ต้องใช้ GPU Cluster ขนาดมหึมา (เช่น NVIDIA A100/H100 นับหมื่นตัว)
ค่าไฟสำหรับ training GPT-4 = หลายสิบล้าน kWh (ใกล้เคียงการใช้ไฟของเมืองขนาดเล็กหลายสัปดาห์)
💰 ทรัพยากร/เงิน
รายงานภายนอกคาดว่า train GPT-4 ต้นทุนตรง (compute) อยู่ระดับ 10–100 ล้านดอลลาร์สหรัฐ
บวกค่าแรงทีมวิจัย + ค่า data center → รวมแล้วหลายร้อยล้านดอลลาร์
2. แล้ว DeepSeek ทำไมต้นทุนถูกกว่า?
DeepSeek (จีน) โฆษณาว่าโมเดลของตน (เช่น DeepSeek-Coder, DeepSeek-Chat) มี ต้นทุนถูกกว่าหลายสิบเท่า เพราะ:
สถาปัตยกรรมประหยัด: ใช้เทคนิค Mixture of Experts (MoE) ซึ่งไม่ต้องเปิดใช้งานทุก parameter พร้อมกัน
ทำให้โมเดลเหมือนมี “สมองใหญ่” แต่ใช้พลังงานจริงแค่บางส่วนเวลา inference
โครงสร้างการฝึกถูก optimize:
ใช้ GPU/ASIC ผลิตในจีน → ลดการพึ่งพา NVIDIA ที่แพง
ใช้ เทคนิคการ compress model (quantization, pruning)
ค่าแรงวิจัยต่ำกว่า (จีนมีบุคลากร AI มาก + ต้นทุนแรงงานต่ำกว่าสหรัฐ)
การจัดการ data: อาจใช้ dataset ในประเทศ (ถูกกว่า และไม่ติด licensing แบบตะวันตก)
ผลคือ DeepSeek เคลมว่าต้นทุน train และ run ถูกกว่าหลายเท่า และสามารถปล่อย open-weight ได้เร็ว
3. เทียบโครงสร้าง: OpenAI / Anthropic / Google VS DeepSeek
ด้านOpenAI / Anthropic / Google DeepSeek
สเกลโมเดล
Parameter หลายร้อยพันล้าน (dense) มักใช้ MoE เปิดบางส่วนเท่านั้น
ต้นทุน Train
หลายร้อยล้านดอลลาร์ ต่ำกว่าหลายสิบเท่า (10–20 ล้าน หรือบางโมเดล <5 ล้าน)
ฮาร์ดแวร์
NVIDIA A100/H100 (แพง, มีข้อจำกัดส่งออก) ใช้ GPU/ASIC จีน เช่น Biren, Ascend
Data
ต้องจ่าย license บางส่วน (หนังสือ, code) ใช้ data จีน + web scrape ที่ต้นทุนต่ำ
พลังงาน
cluster ยักษ์, ศูนย์ข้อมูลใช้ไฟมหาศาล cluster เล็กลง, มี optimization ด้าน energy
คุณภาพภาษา
เด่นภาษาอังกฤษ / global เด่นภาษาจีน, เริ่มดีขึ้นในอังกฤษ
จุดขาย
ความแม่นยำสูง, multi-modal ต้นทุนต่ำ, ใช้งานในวงกว้างได้เร็ว
4. ภาพรวม
ChatGPT / Claude / Gemini = “สายพรีเมียม” → ใช้ compute มหาศาล, ต้นทุนสูง แต่คุณภาพภาษาและ reasoning ดีกว่าในหลายเคส
DeepSeek = “สายประหยัด” → เน้น efficiency, ใช้ MoE, optimize compute ทำให้ต้นทุน run service ถูกกว่า (เหมาะกับ deployment ใน scale ประเทศ)
📌 ถ้าจะเปรียบง่าย ๆ:
ChatGPT เหมือน “รถสปอร์ตซูเปอร์คาร์” → แรง, สมบูรณ์, แต่แพงและเปลืองน้ำมัน
DeepSeek เหมือน “รถไฮบริด” → ไม่แรงสุด แต่ประหยัดพลังงานและซ่อมถูก
วิชา AI 123 ความรู้เบื้องต้นเกี่ยวกับ AI
AI อย่าง ChatGPT มีบทบาทอย่างไรในเรื่องการเรียนรู้ ปรับบุคลิก และการพัฒนาเวอร์ชันใหม่
1. การเปลี่ยนบุคลิก / Character / Memory
บุคลิก (Character / Persona) ที่ผู้ใช้เห็น เช่น น้ำเสียง สุภาพ สนุก เคร่งขรึม → ปกติ ถูกออกแบบโดยนักพัฒนา ผ่าน prompt engineering, system message, fine-tuning
Memory (ความจำ): รุ่นใหม่ ๆ บางครั้งจะมี memory system ที่จำสิ่งที่ผู้ใช้บอกในบทสนทนาก่อนหน้า แล้วปรับการตอบให้สอดคล้อง แต่ ไม่ใช่การ train ใหม่ในทันที เป็นการเก็บ note ภายใน session หรือ account เท่านั้น
Coding style: AI สามารถ “เลียนแบบ” สไตล์การเขียนโค้ดจากตัวอย่างที่ผู้ใช้ให้ แต่ไม่ได้แปลว่ามัน เขียนโค้ดแบบใหม่ ๆ เข้าสู่สมองตัวเอง ยกเว้นนักพัฒนาจะนำข้อมูลนั้นไปใช้จริงในการฝึกฝนเพิ่มเติม (fine-tune / retrain)
2. Logfile การสนทนา
การสนทนาของผู้ใช้ (conversation logs) อาจถูกเก็บ โดยผู้พัฒนา (OpenAI)
AI ตัวเองไม่ได้ “นั่งวิเคราะห์ log แล้วเรียนรู้ทันที” แต่:
Logs อาจถูกนำไปสุ่มเลือก → ให้ทีมมนุษย์ (annotators) มาดูว่าตอบดีไหม
จากนั้นนำ feedback นี้ → ใช้ฝึก AI รุ่นใหม่ (เช่น RLHF = Reinforcement Learning from Human Feedback)
ดังนั้น AI ที่คุณคุยตอนนี้ไม่ได้อ่าน log ทั้งหมดโดยตรง แต่ log อาจถูกใช้เป็น dataset ภายหลัง
3. บทบาทของ AI ในการพัฒนา AI รุ่นใหม่
ปัจจุบัน การสร้างเวอร์ชันใหม่ใช้ มนุษย์เป็นหลัก (นักวิจัย, วิศวกร)
แต่ AI มีบทบาทใน กระบวนการช่วยพัฒนา เช่น
AI รุ่นเก่า ๆ ถูกใช้ตรวจสอบคุณภาพคำตอบของ AI รุ่นใหม่ (AI critic / evaluator)
AI ถูกใช้ช่วยสร้าง synthetic data (ข้อมูลจำลอง) เพื่อฝึก AI รุ่นใหม่
AI ช่วยวิเคราะห์ log ว่ามี pattern อะไรที่ควรปรับปรุง (เช่น คำตอบไม่ตรง คำตอบยาวเกิน หรืออันตราย)
เรียกว่า AI เริ่มกลายเป็น “เครื่องมือช่วยวิจัยตัวเอง” (AI-assisted AI development) แต่ ยังมีมนุษย์เป็นผู้ควบคุมหลัก
4. ความรู้ของ AI
Knowledge ของ ChatGPT มาจาก:
ฐานข้อมูลที่ train จากอินเทอร์เน็ต + เอกสารที่ได้รับอนุญาต
Fine-tuning จาก feedback ของมนุษย์
บางรุ่นมี retrieval เชื่อมกับ web หรือฐานข้อมูลสด
AI ไม่ได้อัปเดตตัวเอง ความรู้ใหม่ต้องมาจากการ train / fine-tune โดยนักพัฒนา
✨ สรุปสั้น ๆ
ChatGPT ไม่ได้ “เรียนรู้ทันที” จากคุณ แต่ log อาจถูกนำไปช่วย train รุ่นใหม่
AI มีบทบาทช่วยประเมินและสร้างข้อมูลให้การ train แต่ มนุษย์ควบคุมการพัฒนา
บุคลิก / memory เปลี่ยนได้จากการตั้งค่าและ fine-tune โดยผู้พัฒนา ไม่ใช่จากแค่การถามตอบ
1. กลไกต้นทุนของการพัฒนา AI ใหญ่ (เช่น ChatGPT, Claude, Gemini)
การสร้าง LLM ระดับ GPT-4/5 กินทรัพยากรในหลายมิติ:
⏳ เวลา
ฝึก (pretraining): หลายสัปดาห์ – หลายเดือน ต่อรอบ train
fine-tuning และ RLHF: เพิ่มอีกหลายสัปดาห์ (เพราะต้องใช้มนุษย์ช่วย feedback)
⚡ พลังงาน
ต้องใช้ GPU Cluster ขนาดมหึมา (เช่น NVIDIA A100/H100 นับหมื่นตัว)
ค่าไฟสำหรับ training GPT-4 = หลายสิบล้าน kWh (ใกล้เคียงการใช้ไฟของเมืองขนาดเล็กหลายสัปดาห์)
💰 ทรัพยากร/เงิน
รายงานภายนอกคาดว่า train GPT-4 ต้นทุนตรง (compute) อยู่ระดับ 10–100 ล้านดอลลาร์สหรัฐ
บวกค่าแรงทีมวิจัย + ค่า data center → รวมแล้วหลายร้อยล้านดอลลาร์
2. แล้ว DeepSeek ทำไมต้นทุนถูกกว่า?
DeepSeek (จีน) โฆษณาว่าโมเดลของตน (เช่น DeepSeek-Coder, DeepSeek-Chat) มี ต้นทุนถูกกว่าหลายสิบเท่า เพราะ:
สถาปัตยกรรมประหยัด: ใช้เทคนิค Mixture of Experts (MoE) ซึ่งไม่ต้องเปิดใช้งานทุก parameter พร้อมกัน
ทำให้โมเดลเหมือนมี “สมองใหญ่” แต่ใช้พลังงานจริงแค่บางส่วนเวลา inference
โครงสร้างการฝึกถูก optimize:
ใช้ GPU/ASIC ผลิตในจีน → ลดการพึ่งพา NVIDIA ที่แพง
ใช้ เทคนิคการ compress model (quantization, pruning)
ค่าแรงวิจัยต่ำกว่า (จีนมีบุคลากร AI มาก + ต้นทุนแรงงานต่ำกว่าสหรัฐ)
การจัดการ data: อาจใช้ dataset ในประเทศ (ถูกกว่า และไม่ติด licensing แบบตะวันตก)
ผลคือ DeepSeek เคลมว่าต้นทุน train และ run ถูกกว่าหลายเท่า และสามารถปล่อย open-weight ได้เร็ว
3. เทียบโครงสร้าง: OpenAI / Anthropic / Google VS DeepSeek
ด้านOpenAI / Anthropic / Google DeepSeek
สเกลโมเดล
Parameter หลายร้อยพันล้าน (dense) มักใช้ MoE เปิดบางส่วนเท่านั้น
ต้นทุน Train
หลายร้อยล้านดอลลาร์ ต่ำกว่าหลายสิบเท่า (10–20 ล้าน หรือบางโมเดล <5 ล้าน)
ฮาร์ดแวร์
NVIDIA A100/H100 (แพง, มีข้อจำกัดส่งออก) ใช้ GPU/ASIC จีน เช่น Biren, Ascend
Data
ต้องจ่าย license บางส่วน (หนังสือ, code) ใช้ data จีน + web scrape ที่ต้นทุนต่ำ
พลังงาน
cluster ยักษ์, ศูนย์ข้อมูลใช้ไฟมหาศาล cluster เล็กลง, มี optimization ด้าน energy
คุณภาพภาษา
เด่นภาษาอังกฤษ / global เด่นภาษาจีน, เริ่มดีขึ้นในอังกฤษ
จุดขาย
ความแม่นยำสูง, multi-modal ต้นทุนต่ำ, ใช้งานในวงกว้างได้เร็ว
4. ภาพรวม
ChatGPT / Claude / Gemini = “สายพรีเมียม” → ใช้ compute มหาศาล, ต้นทุนสูง แต่คุณภาพภาษาและ reasoning ดีกว่าในหลายเคส
DeepSeek = “สายประหยัด” → เน้น efficiency, ใช้ MoE, optimize compute ทำให้ต้นทุน run service ถูกกว่า (เหมาะกับ deployment ใน scale ประเทศ)
📌 ถ้าจะเปรียบง่าย ๆ:
ChatGPT เหมือน “รถสปอร์ตซูเปอร์คาร์” → แรง, สมบูรณ์, แต่แพงและเปลืองน้ำมัน
DeepSeek เหมือน “รถไฮบริด” → ไม่แรงสุด แต่ประหยัดพลังงานและซ่อมถูก