การสังเคราะเสียงของ AI เวอร์ชั่น PCM 16 บิต 48KHz
วิธีการสังเคราะห์เสียงจากมนุษย์ ให้บันทึกเสียง แต่ละคำของถาษาไทย การ จะ ทำ แบบ นี้ ทุกคำในภาษาไทย เป็นคำๆ แล้วตัดหัวไม่มีเสียงออก +/- 0Vและตัดท้ายไม่มีเสียงออกที่ +/-0v เป็นต้นแบบ เป็นไฟล์ การ.wav จะ.wav ทำ.wav แบบ.wav นี้.wav จนครบคำไทยทุกคำ มนุษย์เป็นตัดแต่งเสียงหรือใช้ AI ตัดแต่งเสียงก็ได้ AI เรียนรู้เสียง .wav เพี่อ สร้างเสียง PCM คือ Pulse Code Modulation (การมอดูเลชั่นรหัสพัลส์) เป็นระบบแปลงเสียง 16 บิต 44.1KHz/48KHz รู้วิธีการแปลงแล้ว ใน .wav จะมีค่าตัวเลขฐานสอง จะจดจำค่าเอาไปไช้งาน คือสร้างรหัสเสียงขึ้นมาใหม่โดยสร้างคลื่นเสียง PCM มาใหม่
วิธีที่ 2
AI จะเปลี่ยนคลื่นเสียง PCM ที่มีความยาว (เช่น 16-bit / 48kHz) ให้กลายเป็นภาพกราฟความถี่เสียงที่เรียกว่า Spectrogramจากนั้นมันจะหั่นเสียงประโยคยาวๆ ออกเป็นช่องย่อยๆ ขนาดจิ๋วมาก (ประมาณ 10–20 มิลลิseconds ต่อช่อง)AI จะวิเคราะห์ช่องจิ๋วเหล่านั้นเพื่อค้นหา หน่วยเสียง (Phonemes) หรือเสียงสระและพยัญชนะย่อยๆ เช่น คำว่า "สวัสดี" จะถูกมองเป็นเสียง ส ว ั ส ด ี
วิธีที่ 1 เอามาดูการต่อคำยาวให้ดูแบบ วีธีที่ 2 คือ ดูคำต่อประโยคยาวว่าพูดแบบไหน ต่อคำยังไง AI เรียนรู้การต่อคำ (เหมือนการสร้างเกมใน GPU ต้องมีคะแนนให้มัน ถ้าต่อถูกให้คะแนน 10เต็มเลย) ถ้าต่อคำถูกต้องมันจะจดจำลงในตารางไฟล์ เหมือนการสร้างเกมเรียนรู้ของ Ai เอาคำศัพท์ให้มัน แล้ว ให้มันค้นหาทำเสียงให้มาต่อกัน เป็นคำประโยคยาว แล้วการฟัง ให้ใช้ภาษาไทยโดยตรง ไม่ต้องแปลเป็นคำพูดอังกฤษและแปลภาษาไทย ถ้าการแปลงแบบนี้อาจจะทำให้การฟังเพี้ยนได้ในการแปลไปมา เช่น การแปลงลักษณะนี้ทำให้ อักษรเพี้ยน-> Kār pælng lạks̄ʹṇa nī̂ thảh̄ı̂ xạks̄ʹr pheī̂yn-> This transformation causes the characters to become distorted-> การแปลงลักษณะนี้ทำให้ อักษร เพี้ยน เพราะอังกฤษ ไม่มีวรรณยุกต์และสระใช้คำตรงเลย การแปลงลักษณะนี้ทำให้ อักษร เพี้ยน แบบนี้เป็นต้น
ผู้คิดค้นแนวคิดนี้คือ LAM-Thai (Large Audio Model Thai) เสียงของ AI
ลิงเชื่อมโยงกัน
https://m.pantip.com/topic/44066302
https://m.pantip.com/topic/44092116
วีธีทำสังเคราะห์เสียงจากมนุษย์ให้ Ai พูด
วิธีการสังเคราะห์เสียงจากมนุษย์ ให้บันทึกเสียง แต่ละคำของถาษาไทย การ จะ ทำ แบบ นี้ ทุกคำในภาษาไทย เป็นคำๆ แล้วตัดหัวไม่มีเสียงออก +/- 0Vและตัดท้ายไม่มีเสียงออกที่ +/-0v เป็นต้นแบบ เป็นไฟล์ การ.wav จะ.wav ทำ.wav แบบ.wav นี้.wav จนครบคำไทยทุกคำ มนุษย์เป็นตัดแต่งเสียงหรือใช้ AI ตัดแต่งเสียงก็ได้ AI เรียนรู้เสียง .wav เพี่อ สร้างเสียง PCM คือ Pulse Code Modulation (การมอดูเลชั่นรหัสพัลส์) เป็นระบบแปลงเสียง 16 บิต 44.1KHz/48KHz รู้วิธีการแปลงแล้ว ใน .wav จะมีค่าตัวเลขฐานสอง จะจดจำค่าเอาไปไช้งาน คือสร้างรหัสเสียงขึ้นมาใหม่โดยสร้างคลื่นเสียง PCM มาใหม่
วิธีที่ 2
AI จะเปลี่ยนคลื่นเสียง PCM ที่มีความยาว (เช่น 16-bit / 48kHz) ให้กลายเป็นภาพกราฟความถี่เสียงที่เรียกว่า Spectrogramจากนั้นมันจะหั่นเสียงประโยคยาวๆ ออกเป็นช่องย่อยๆ ขนาดจิ๋วมาก (ประมาณ 10–20 มิลลิseconds ต่อช่อง)AI จะวิเคราะห์ช่องจิ๋วเหล่านั้นเพื่อค้นหา หน่วยเสียง (Phonemes) หรือเสียงสระและพยัญชนะย่อยๆ เช่น คำว่า "สวัสดี" จะถูกมองเป็นเสียง ส ว ั ส ด ี
วิธีที่ 1 เอามาดูการต่อคำยาวให้ดูแบบ วีธีที่ 2 คือ ดูคำต่อประโยคยาวว่าพูดแบบไหน ต่อคำยังไง AI เรียนรู้การต่อคำ (เหมือนการสร้างเกมใน GPU ต้องมีคะแนนให้มัน ถ้าต่อถูกให้คะแนน 10เต็มเลย) ถ้าต่อคำถูกต้องมันจะจดจำลงในตารางไฟล์ เหมือนการสร้างเกมเรียนรู้ของ Ai เอาคำศัพท์ให้มัน แล้ว ให้มันค้นหาทำเสียงให้มาต่อกัน เป็นคำประโยคยาว แล้วการฟัง ให้ใช้ภาษาไทยโดยตรง ไม่ต้องแปลเป็นคำพูดอังกฤษและแปลภาษาไทย ถ้าการแปลงแบบนี้อาจจะทำให้การฟังเพี้ยนได้ในการแปลไปมา เช่น การแปลงลักษณะนี้ทำให้ อักษรเพี้ยน-> Kār pælng lạks̄ʹṇa nī̂ thảh̄ı̂ xạks̄ʹr pheī̂yn-> This transformation causes the characters to become distorted-> การแปลงลักษณะนี้ทำให้ อักษร เพี้ยน เพราะอังกฤษ ไม่มีวรรณยุกต์และสระใช้คำตรงเลย การแปลงลักษณะนี้ทำให้ อักษร เพี้ยน แบบนี้เป็นต้น
ผู้คิดค้นแนวคิดนี้คือ LAM-Thai (Large Audio Model Thai) เสียงของ AI
ลิงเชื่อมโยงกัน
https://m.pantip.com/topic/44066302
https://m.pantip.com/topic/44092116