TECH&SCI

สมรภูมิ AI ใครจะครองบัลลังก์? จุดร่วมจุดต่าง Gemini 1.5 Pro และ GPT-4o

วันที่ส่ง: 16/05/2024 - ผู้เขียน: กรุงเทพธุรกิจ

กูเกิลและโอเพนเอไอนับว่าเป็นคู่ชกที่ท้าชิงบัลลังก์โมเดลภาษาขนาดใหญ่ (LLMs) โดยล่าสุด ประกาศเปิดตัวไล่เลี่ยกันระหว่าง “Gemini 1.5 Pro” และ “GPT-4o” อวดโฉมอาวุธลับที่ซุ่มพัฒนามาสักระยะ

อย่างไรก็ตาม แม้ว่าบริษัทเทคฯ จะฟาดฟันอย่างดุเดือด หากแต่ผู้ที่ได้รับผลประโยชน์ก็คือ ผู้ใช้งาน (User) เพราะโมเดลภาษาขนาดใหญ่ที่อัปเดตนั้นมาพร้อมกับความก้าวหน้าที่อัจฉริยะมากขึ้น

‘สั่งการด้วยเสียง’ จุดร่วมบิ๊กเทคฯ

ทางโอเพนเอไอชิงเปิดตัวก่อนล่วงหน้า 1 วัน GPT-4o (โฟร์-โอ) มาพร้อมกับความเร็วและแรง กล่าวคือ โมเดลภาษาชุดนี้ประมวลผลไวกว่ารุ่น GPT-4 โดย ตัว “o” ในชื่อย่อมาจาก omni ที่แปลว่าความรอบรู้ พร้อมทั้งรองรับได้ถึง 50 ภาษา หนึ่งในนั้นมีภาษาไทย สามารถแปลได้แบบเรียลไทม์

มิรา มูราติ หัวหน้าฝ่ายเทคโนโลยีของโอเพนเอไอ กล่าวว่า โฟร์-โอนั้นเร็วขึ้นมาก สามารถนำเข้าข้อมูลได้หลายรูปแบบ (multimodal) ไม่ว่าจะเป็นข้อความ เสียง หรือภาพ วิดีโอ เอไอก็สามารถประมวลผลได้ไว ตอบกลับได้ในทันที และยังสามารถสรุปข้อมูลทั้งข้อความ วิดีโอคลิป ตาราง และเอกสารต่างๆ เป็นจำนวนมาก ได้อย่างกระชับ และมีใจความสำคัญมากขึ้น

กูเกิลตามมาทีหลัง แต่ก็ชูจุดเด่น Gemini 1.5 Pro ด้านการประมวลผลข้อมูลขนาดใหญ่ เพราะมีหน้าต่างบริบท (context window) สูงสุดถึง 2 โทเคน เปรียบให้เห็นภาพง่ายๆ มันสามารถรองรับคลิปเสียงยาว 11 ชั่วโมง วิดีโอ 1 ชั่วโมง เอกสาร 700,000 คำ หรือโค้ด 30,000 บรรทัดได้อย่างสบายๆ ซึ่งกูเกิลก็ได้เพิ่มอีก 35 ภาษาเข้ามาใช้เพื่อการประมวลผล

จุดร่วมที่ดูเหมือนว่ายักษ์ใหญ่เอไอสองเจ้าจะคิดเหมือนกันก็คือ “การสั่งการด้วยเสียง” สำหรับโอเพนเอไอจะเรียกว่า Voice Mode ผู้ใช้สามารถพูดแทรก ChatGPT ได้ทันที เช่น ขอให้พูดเสียงหุ่นยนต์หรือตอบเป็นเพลง ตลอดจนขอให้เอไอเล่านิทานก่อนนอนก็ทำได้

“Voice Mode เป็นฟังก์ชันคำสั่งเสียง โดยเอไอสามารถตอบสนองต่อคำสั่งเสียงของผู้ใช้ภายในเวลาเพียง 232 มิลลิวินาที โดยเฉลี่ยอยู่ที่ 320 มิลลิวินาที ซึ่งใกล้เคียงกับเวลาตอบสนองของมนุษย์ในการสนทนา กล่าวได้ว่า มันสามารถทำหน้าที่แปลภาษาโดยอาจไม่ต้องพึ่งพาล่ามเลย”

ส่วนฝั่งกูเกิลใช้ชื่อว่า Live for Gemini Advanced โดยได้เพิ่มไฮไลต์สำคัญมาอีกอย่างคือ เอไอสามารถมองเห็นโลกภายนอกผ่าน “กล้อง” หากสั่งด้วยเสียงแล้วแพลนกล้องไปยังจุดต่างๆ จะสามารถช่วยหาของที่หายไป หรือแม้แต่กระทั่งระบุวัตถุบางอย่าง เช่น ถามว่าบนโต๊ะมีอุปกรณ์อะไรที่ส่งเสียงได้บ้าง Gemini ก็จะตอบว่า ลำโพง

นอกจากกูเกิลจะอัปเดตความสามารถของรุ่น Pro แล้ว ก็ยังเพิ่มรุ่น 1.5 Flash เข้ามาในซีรีส์ของเอไอ Gemini โดย Flash มีหน้าต่างบริบท 1 โทเคน แต่ศักยภาพใกล้เคียงกับรุ่น Pro และยังประมวลผลได้อย่างรวดเร็ว เหมาะแก่ผู้ต้องการใช้เอไอแบบง่ายๆ ราคาประหยัด แต่ยังต้องการ การประมวลผลหลากหลายรูปแบบ

ฝั่งโอเพนเอไอก็ปล่อย ChatGPT เวอร์ชันเดสก์ท็อป ที่สามารถติดตั้งได้บนหน้าจอคอมพิวเตอร์ เพื่อการใช้งานที่ง่าย และสะดวกขึ้น พร้อมทั้งเปิดให้ใช้ฟีเจอร์ที่ก่อนหน้านี้สงวนสิทธิ์เฉพาะสมาชิก ChatGPT Plus บางฟีเจอร์ เช่น สามารถอัปโหลดรูปภาพ และให้เอไอตอบคำถามได้ หรือฟีเจอร์ Memory ที่จดจำฐานข้อมูลต่าง ๆ โดยไม่ต้องป้อนหลายรอบ

ผูก AI บนระบบปฏิบัติการอุปกรณ์สื่อสาร

เบื้องต้น Gemini 1.5 Pro จะเปิดให้ทดสอบใน Workspace Labs ส่วน Gemini 1.5 Flash จะเปิดให้ทดสอบและใช้งานใน Vertex AI ซึ่งเป็นแพลตฟอร์มการเรียนรู้เอไอของกูเกิล ก่อนจะปล่อยให้ใช้งานจริง ส่วนเวอร์ชัน 2 ล้านโทเคนยังอยู่ในช่วงทดสอบแบบลับๆ

กูเกิลยังมีแผนผูก Gemini เข้ากับระบบของแอนดรอยด์ (Android) รวมถึง Gemini Nano เพราะต้องการทำให้แอนดรอยด์ เป็นระบบปฏิบัติการแรกในโลกที่มีเอไอเป็นพื้นฐานของการรันบนอุปกรณ์ ไม่ใช่แค่การใช้งานผ่านเว็บไซต์หรือแอปพลิเคชัน

ขณะเดียวกัน ก็มีรายงานว่าโอเพนเอไอใกล้ปิดดีลเจรจากับ แอปเปิล (Apple) เพราะต้องการใส่ GPT เข้าไปเป็นฟีเจอร์หลักของ iOS 18 แล้ว โดยคาดว่าจะเปิดตัว iOS รุ่นล่าสุด และ iPhone 16 เดือนก.ย.นี้

ด้าน แบรด ไลท์แคป ประธานเจ้าหน้าที่ฝ่ายปฏิบัติการของโอเพนเอไอ กล่าวว่า “การเปิดตัว GPT-4o ครั้งนี้ ถือเป็นหนึ่งในการประกาศครั้งใหญ่ของบริษัท นับตั้งแต่เปิดตัว ChatGPT เราใช้เวลาพัฒนาแชตบอตเอไอน้อยกว่า 1 ปี และได้รับความช่วยเหลือจากบริษัทต่างๆ มากกว่า 20 บริษัท ก้าวต่อไปคือ การทำให้ทุกคนสามารถทำงานร่วมกับเครื่องมืออย่าง ChatGPT ง่ายขึ้น และมีความปลอดภัยมากขึ้น”

ท้ายที่สุดแล้วเอไอทั้งสองตัวก็มีการพัฒนาขนาบคู่ทิศทางเดียวกัน มีจุดแตกต่างเพียงไม่กี่อย่าง ขึ้นอยู่กับว่าผู้ใช้งานจะถนัดมือ และต้องการใช้ทำอะไรมากกว่า ฝั่งผู้สร้างเองก็พยายามพัฒนาโมเดลเหล่านี้ให้ตอบโจทย์กับการใช้งานที่มากขึ้น

จุดสำคัญคือ การแข่งขันของโมเดลเอไอนำไปสู่การพัฒนาเทคโนโลยีที่รวดเร็ว ผู้ใช้งานควรคำนึงถึงจริยธรรมในการใช้เครื่องมือเหล่านี้ให้เป็นประโยชน์มากกว่าโทษ

อ้างอิง: Google และ OpenAI

คำแถลงปฏิเสธความรับผิดชอบ: ลิขสิทธิ์ของบทความนี้เป็นของผู้เขียนต้นฉบับ การเผยแพร่ซ้ำบทความนี้มีวัตถุประสงค์เพื่อเผยแพร่ข้อมูลเท่านั้นและไม่ถือเป็นคำแนะนำในการลงทุน หากมีการละเมิดกรุณาติดต่อเราทันที เราจะทำการแก้ไขหรือลบตามความเหมาะสม ขอบคุณ