โปรแกรม DALL-E และ Stable diffusion เป็นโปรแกรมสร้างภาพจากคำอธิบายข้อความที่ได้รับความนิยมทั้งสองโปรแกรม (text2image) ทั้งสองโปรแกรมมีข้อดีและข้อเสียที่แตกต่างกัน บทความนี้จะเปรียบเทียบความแตกต่างระหว่างโปรแกรมทั้งสอง เพื่อให้ผู้ใช้งานสามารถเลือกโปรแกรมที่เหมาะสมกับความต้องการของตัวเองได้
DALL·E
DALL·E คือปัญญาประดิษฐ์ที่สร้างโดยบริษัทวิจัยทางด้านปัญญาประดิษฐ์ Open AI ที่เคยมีเศรษฐีอย่าง Elon Musk เคยเป็นผู้ร่วมก่อตั้ง โดย DALL·E สามารถสร้างรูปภาพจากคำบรรยายที่เป็นภาษาธรรมชาติ คุณสมบัติที่อัพเกรดจากเวอร์ชันแรกคือแก้ไขภาพต้นฉบับ โดยการแก้ไขคือสามารถเติมวัตถุภายในภาพ และกำหนดตำแหน่งที่ต้องการแก้ไขตามคำบรยาย อีกอย่างของความสามารถที่อัพเกรดคือสร้างภาพที่มีความละเอียดสูงได้
ข้อดีของ DALL·E
- สามารถสร้างรูปภาพตามคำบรรยายที่มนุษย์ป้อนเข้าไปในระบบได้โดยทันที แม้ว่าจะไม่เคยเห็นมาก่อนในช่วงการฝึกโมเดล และยังมีความเข้าใจในองค์ประกอบของรูปภาพต่าง ๆ เช่น สไตล์และเทคนิคการวาดภาพหรือความแตกต่างของกาลเวลา
- สามารถสร้างรูปภาพตามคำบรรยายที่มีความละเอียดภาพสูง
- สามารถเพิ่มองค์ประกอบในรูปภาพต้นฉบับโดยใช้คำบรรยาย (Inpainting)
- สามารถสร้างรูปภาพใหม่ตามต้นฉบับ (Variations) โดยยังคงองค์ประกอบหลักของภาพแต่สร้างรายละเอียดของภาพที่แตกต่างกันออกไป
- สามารถในการปรับเปลี่ยนองค์ประกอบของรูปภาพต้นฉบับ โดยสามารถเลือกตำแหน่งในรูปต้นฉบับที่ต้องการเปลี่ยน จากนั้นสามารถพิมพ์คำสั่งเพื่อให้เพิ่มองค์ประกอบรูป ณ ตำแหน่งนั้นได้
ข้อเสียของ DALL·E
- DALL·E ยังคงความอคติทั้งทางด้านเชื้อชาติและเพศอยู่ เช่น รูปส่วนใหญ่อาจเป็นชนชาติผิวขาวหรือชาวตะวันตก และในหลายอาชีพ DALL·E 2 จะสร้างรูปทั้งหมดเป็นเพศหญิงหรือเพศชายเท่านั้น
- การสะกดคำในรูปภาพที่ยังไม่สมบูรณ์ DALL·E นั้นยังไม่สามารถสะกดคำในรูปภาพได้อย่างแม่นยำ
- รายละเอียดบางอย่างที่ไม่สมเหตุสมผล DALL·E นั้นทำงานได้ดีในการสร้างองค์ประกอบหลักของรูปภาพ แต่สามารถขาดการสร้างรายละเอียดที่สมเหตุสมผลได้ ดังเช่น รูปมือถือใบไม้ ที่องค์ประกอบหลักอย่างมือ หรือใบไม้นั้นดูสมจริง โดยเฉพาะมือที่เปื้อนดินราวกับเพิ่งขุดใบไม้ขึ้นมา แต่ถ้าสังเกตแล้ว ตรงกลางฝ่ามือที่มีใบไม้วางอยู่ซึ่งควรจะมีเส้นแบ่งระหว่างมือสองข้างกลับหายไป
- การไม่สามารถกำหนดตำแหน่งของวัตถุที่เกี่ยวข้องกันได้อย่างแม่นยำ DALL·E ยังคงไม่สามารถวางตำแหน่งของวัตถุที่เกี่ยวข้องกันได้อย่างถูกต้อง
Stable Diffusion
Stable Diffusion เป็นอีกหนึ่ง Generative AI สร้างภาพที่มีความเก่งไม่แพ้ DALL-E หรือ Midjourney เป็นโปรแกรมสร้างภาพจากคำอธิบายข้อความ และเป็นโปรแกรม opensource ซึ่งสามารถให้ใช้งานได้ฟรี มี coummunity ทั่วโลก และมีนักพัฒนาร่วมกันพัฒนาให้ดียิ่งขึ้น แต่สำหรับซอฟต์แวร์ Stable Diffusion มีความต่างตรงที่เราสามารถตั้งค่าในการสร้างรูปภาพได้แบบละเอียดกว่ามาก ๆ โดยเราสามารถป้อนคำสั่ง Prompt ในส่วนของสิ่งที่เราต้องการ และไม่ต้องการในภาพได้ อีกทั้งสามารถกำหนดโทนภาพ และไซส์ได้ตามใจ ไม่ว่าจะเป็นรูปภาพแบบการ์ตูนอนิเมะ หรือภาพคนเสมือนจริง ก็มีให้เลือกได้หลายแบบ เหมาะสำหรับคนที่ต้องการภาพเฉพาะทาง ซึ่งต้องการความละเอียดของภาพ ลองได้ลองใช้สักครั้ง รับรองต้องสนุกกับการใช้ AI สร้างภาพอย่างแน่นอน
ข้อดีของ stable diffusion
- สามารถเข้าถึงได้และใช้งานง่าย โดยสามารถทำงานบนการ์ดจอระดับผู้บริโภคได้ ซึ่งเป็นครั้งแรกที่ใครๆ ก็สามารถดาวน์โหลดโมเดลและสร้างรูปภาพของตนเองได้
- สามารถสร้างวิดีโอและภาพแอนิเมชันได้อีกด้วย โมเดลจะอาศัยเทคโนโลยีการแพร่กระจายและใช้พื้นที่แฝง ซึ่งจะช่วยลดความต้องการในการประมวลผลได้มาก และคุณสามารถเรียกใช้โมเดลบนเดสก์ท็อปหรือแล็ปท็อปที่ติดตั้ง GPU ได้ Stable Diffusion สามารถปรับอย่างละเอียดเพื่อให้ตรงกับความต้องการ
- สามารถควบคุมไฮเปอร์พารามิเตอร์ที่สำคัญได้ สามารถสร้างภาพที่มีรายละเอียดและสมจริงได้
- มีศักยภาพในการสร้างภาพประเภทต่างๆ มากมาย
ข้อเสียของ stable diffusion
- ใช้ทรัพยากรคอมพิวเตอร์ที่มีสเปคปานกลาง - สูง
- ต้องใช้การ์ดจอ Nvidia เท่านั้น แต่หากสเปกเครื่องไม่ถึงสามารถใช้งานผ่าน google colab ได้ แต่ต้องเสียค่าแพคเกจรายเดือนในเวอร์ชั่น Pro
สรุป
โปรแกรม DALL-E และ stable diffusion เป็นโปรแกรมสร้างภาพจากคำอธิบายข้อความที่มีประสิทธิภาพทั้งสองโปรแกรม โปรแกรม stable diffusion มีประสิทธิภาพสูงและสามารถสร้างภาพที่มีรายละเอียดและสมจริงได้ โดยสามารถใช้ Stable Diffusion เพื่อแก้ไขและรีทัชรูปภาพได้ โหลดรูปภาพและใช้แปรงยางลบเพื่อมาสก์พื้นที่ที่คุณต้องการแก้ไข โดยใช้ AI Editor จากนั้นจึงกำหนดสิ่งที่คุณต้องการทำ แก้ไข หรือลงสีรูปภาพโดยการสร้างพรอมต์ ตัวอย่างเช่น คุณสามารถซ่อมแซมภาพถ่ายเก่า ลบวัตถุออกจากรูปภาพ เปลี่ยนคุณสมบัติของวัตถุ และเพิ่มองค์ประกอบใหม่ให้กับรูปภาพได้
และสามารถสร้างคลิปวิดีโอสั้นๆ และภาพเคลื่อนไหวได้ด้วย Stable Diffusion โดยใช้คุณสมบัติต่างๆ เช่น Deforum จาก GitHub การใช้งานอีกอย่างหนึ่งคือการเพิ่มสไตล์ที่แตกต่างให้กับภาพยนตร์ คุณยังสามารถทำให้รูปภาพเคลื่อนไหวได้โดยสร้างความรู้สึกของการเคลื่อนไหว แต่อาจใช้เครื่องที่มีสเปคสูงมากตาม
ส่วนโปรแกรม DALL-E ใช้งานง่ายและมีประสิทธิภาพ ใช้กับเครื่องไหนก็ได้แต่อาจควบคุมภาพได้ยากกว่า stable diffusion และมีความโดดเด่นที่ความสามารถในการสร้างรูปภาพตามข้อความที่มนุษย์ป้อนเข้าไปทันที แล้วยังมีความเข้าใจองค์ประกอบของรูปภาพในแง่ต่าง ๆ เช่น สไตล์และเทคนิคการวาดภาพ อย่างไรก็ดี DALL-E เวอร์ชันแรกๆ ก็ยังมีข้อจำกัดเรื่องความละเอียดและสมจริงของภาพอยู่ ด้วยเหตุนี้ทาง OpenAI จึงได้พัฒนาเพิ่มเติม จนในที่สุดได้เปิดตัว DALL-E 3 หรือเวอร์ชันล่าสุดที่ใช้กันอยู่ในปัจจุบันซึ่งมีความเสมือนจริงมากยิ่งขึ้น
ติดตามอัพเดตรายละเอียดเพิ่มเติมได้ที่
-
https://stability.ai/blog/stable-diffusion-public-release
-
https://openai.com/
ความแตกต่างระหว่าง DALL-E vs. Stable Diffusion
DALL·E คือปัญญาประดิษฐ์ที่สร้างโดยบริษัทวิจัยทางด้านปัญญาประดิษฐ์ Open AI ที่เคยมีเศรษฐีอย่าง Elon Musk เคยเป็นผู้ร่วมก่อตั้ง โดย DALL·E สามารถสร้างรูปภาพจากคำบรรยายที่เป็นภาษาธรรมชาติ คุณสมบัติที่อัพเกรดจากเวอร์ชันแรกคือแก้ไขภาพต้นฉบับ โดยการแก้ไขคือสามารถเติมวัตถุภายในภาพ และกำหนดตำแหน่งที่ต้องการแก้ไขตามคำบรยาย อีกอย่างของความสามารถที่อัพเกรดคือสร้างภาพที่มีความละเอียดสูงได้
ข้อดีของ DALL·E
- สามารถสร้างรูปภาพตามคำบรรยายที่มนุษย์ป้อนเข้าไปในระบบได้โดยทันที แม้ว่าจะไม่เคยเห็นมาก่อนในช่วงการฝึกโมเดล และยังมีความเข้าใจในองค์ประกอบของรูปภาพต่าง ๆ เช่น สไตล์และเทคนิคการวาดภาพหรือความแตกต่างของกาลเวลา
- สามารถสร้างรูปภาพตามคำบรรยายที่มีความละเอียดภาพสูง
- สามารถเพิ่มองค์ประกอบในรูปภาพต้นฉบับโดยใช้คำบรรยาย (Inpainting)
- สามารถสร้างรูปภาพใหม่ตามต้นฉบับ (Variations) โดยยังคงองค์ประกอบหลักของภาพแต่สร้างรายละเอียดของภาพที่แตกต่างกันออกไป
- สามารถในการปรับเปลี่ยนองค์ประกอบของรูปภาพต้นฉบับ โดยสามารถเลือกตำแหน่งในรูปต้นฉบับที่ต้องการเปลี่ยน จากนั้นสามารถพิมพ์คำสั่งเพื่อให้เพิ่มองค์ประกอบรูป ณ ตำแหน่งนั้นได้
ข้อเสียของ DALL·E
- DALL·E ยังคงความอคติทั้งทางด้านเชื้อชาติและเพศอยู่ เช่น รูปส่วนใหญ่อาจเป็นชนชาติผิวขาวหรือชาวตะวันตก และในหลายอาชีพ DALL·E 2 จะสร้างรูปทั้งหมดเป็นเพศหญิงหรือเพศชายเท่านั้น
- การสะกดคำในรูปภาพที่ยังไม่สมบูรณ์ DALL·E นั้นยังไม่สามารถสะกดคำในรูปภาพได้อย่างแม่นยำ
- รายละเอียดบางอย่างที่ไม่สมเหตุสมผล DALL·E นั้นทำงานได้ดีในการสร้างองค์ประกอบหลักของรูปภาพ แต่สามารถขาดการสร้างรายละเอียดที่สมเหตุสมผลได้ ดังเช่น รูปมือถือใบไม้ ที่องค์ประกอบหลักอย่างมือ หรือใบไม้นั้นดูสมจริง โดยเฉพาะมือที่เปื้อนดินราวกับเพิ่งขุดใบไม้ขึ้นมา แต่ถ้าสังเกตแล้ว ตรงกลางฝ่ามือที่มีใบไม้วางอยู่ซึ่งควรจะมีเส้นแบ่งระหว่างมือสองข้างกลับหายไป
- การไม่สามารถกำหนดตำแหน่งของวัตถุที่เกี่ยวข้องกันได้อย่างแม่นยำ DALL·E ยังคงไม่สามารถวางตำแหน่งของวัตถุที่เกี่ยวข้องกันได้อย่างถูกต้อง
Stable Diffusion เป็นอีกหนึ่ง Generative AI สร้างภาพที่มีความเก่งไม่แพ้ DALL-E หรือ Midjourney เป็นโปรแกรมสร้างภาพจากคำอธิบายข้อความ และเป็นโปรแกรม opensource ซึ่งสามารถให้ใช้งานได้ฟรี มี coummunity ทั่วโลก และมีนักพัฒนาร่วมกันพัฒนาให้ดียิ่งขึ้น แต่สำหรับซอฟต์แวร์ Stable Diffusion มีความต่างตรงที่เราสามารถตั้งค่าในการสร้างรูปภาพได้แบบละเอียดกว่ามาก ๆ โดยเราสามารถป้อนคำสั่ง Prompt ในส่วนของสิ่งที่เราต้องการ และไม่ต้องการในภาพได้ อีกทั้งสามารถกำหนดโทนภาพ และไซส์ได้ตามใจ ไม่ว่าจะเป็นรูปภาพแบบการ์ตูนอนิเมะ หรือภาพคนเสมือนจริง ก็มีให้เลือกได้หลายแบบ เหมาะสำหรับคนที่ต้องการภาพเฉพาะทาง ซึ่งต้องการความละเอียดของภาพ ลองได้ลองใช้สักครั้ง รับรองต้องสนุกกับการใช้ AI สร้างภาพอย่างแน่นอน
ข้อดีของ stable diffusion
- สามารถเข้าถึงได้และใช้งานง่าย โดยสามารถทำงานบนการ์ดจอระดับผู้บริโภคได้ ซึ่งเป็นครั้งแรกที่ใครๆ ก็สามารถดาวน์โหลดโมเดลและสร้างรูปภาพของตนเองได้
- สามารถสร้างวิดีโอและภาพแอนิเมชันได้อีกด้วย โมเดลจะอาศัยเทคโนโลยีการแพร่กระจายและใช้พื้นที่แฝง ซึ่งจะช่วยลดความต้องการในการประมวลผลได้มาก และคุณสามารถเรียกใช้โมเดลบนเดสก์ท็อปหรือแล็ปท็อปที่ติดตั้ง GPU ได้ Stable Diffusion สามารถปรับอย่างละเอียดเพื่อให้ตรงกับความต้องการ
- สามารถควบคุมไฮเปอร์พารามิเตอร์ที่สำคัญได้ สามารถสร้างภาพที่มีรายละเอียดและสมจริงได้
- มีศักยภาพในการสร้างภาพประเภทต่างๆ มากมาย
ข้อเสียของ stable diffusion
- ใช้ทรัพยากรคอมพิวเตอร์ที่มีสเปคปานกลาง - สูง
- ต้องใช้การ์ดจอ Nvidia เท่านั้น แต่หากสเปกเครื่องไม่ถึงสามารถใช้งานผ่าน google colab ได้ แต่ต้องเสียค่าแพคเกจรายเดือนในเวอร์ชั่น Pro
โปรแกรม DALL-E และ stable diffusion เป็นโปรแกรมสร้างภาพจากคำอธิบายข้อความที่มีประสิทธิภาพทั้งสองโปรแกรม โปรแกรม stable diffusion มีประสิทธิภาพสูงและสามารถสร้างภาพที่มีรายละเอียดและสมจริงได้ โดยสามารถใช้ Stable Diffusion เพื่อแก้ไขและรีทัชรูปภาพได้ โหลดรูปภาพและใช้แปรงยางลบเพื่อมาสก์พื้นที่ที่คุณต้องการแก้ไข โดยใช้ AI Editor จากนั้นจึงกำหนดสิ่งที่คุณต้องการทำ แก้ไข หรือลงสีรูปภาพโดยการสร้างพรอมต์ ตัวอย่างเช่น คุณสามารถซ่อมแซมภาพถ่ายเก่า ลบวัตถุออกจากรูปภาพ เปลี่ยนคุณสมบัติของวัตถุ และเพิ่มองค์ประกอบใหม่ให้กับรูปภาพได้
และสามารถสร้างคลิปวิดีโอสั้นๆ และภาพเคลื่อนไหวได้ด้วย Stable Diffusion โดยใช้คุณสมบัติต่างๆ เช่น Deforum จาก GitHub การใช้งานอีกอย่างหนึ่งคือการเพิ่มสไตล์ที่แตกต่างให้กับภาพยนตร์ คุณยังสามารถทำให้รูปภาพเคลื่อนไหวได้โดยสร้างความรู้สึกของการเคลื่อนไหว แต่อาจใช้เครื่องที่มีสเปคสูงมากตาม
ส่วนโปรแกรม DALL-E ใช้งานง่ายและมีประสิทธิภาพ ใช้กับเครื่องไหนก็ได้แต่อาจควบคุมภาพได้ยากกว่า stable diffusion และมีความโดดเด่นที่ความสามารถในการสร้างรูปภาพตามข้อความที่มนุษย์ป้อนเข้าไปทันที แล้วยังมีความเข้าใจองค์ประกอบของรูปภาพในแง่ต่าง ๆ เช่น สไตล์และเทคนิคการวาดภาพ อย่างไรก็ดี DALL-E เวอร์ชันแรกๆ ก็ยังมีข้อจำกัดเรื่องความละเอียดและสมจริงของภาพอยู่ ด้วยเหตุนี้ทาง OpenAI จึงได้พัฒนาเพิ่มเติม จนในที่สุดได้เปิดตัว DALL-E 3 หรือเวอร์ชันล่าสุดที่ใช้กันอยู่ในปัจจุบันซึ่งมีความเสมือนจริงมากยิ่งขึ้น
ติดตามอัพเดตรายละเอียดเพิ่มเติมได้ที่
- https://stability.ai/blog/stable-diffusion-public-release
- https://openai.com/