ไฮยีน่ามาถึง AI ที่ทำให้ ChatGPT โง่เขลา

เบื้องหลังโครงการนี้มีชื่อที่โด่งดังมากในด้านปัญญาประดิษฐ์ เช่น Yoshua Bengio ผู้ชนะรางวัล Turing Award ปี 2019 หรือ Christopher Ré ซึ่งช่วยส่งเสริมแนวคิดของ AI ว่าเป็น “ซอฟต์แวร์ 2.0” ในช่วงไม่กี่ปีที่ผ่านมา ไฮยีน่าประสบความสำเร็จ เช่นเดียวกับ ChatGPT ที่มีการฝึกอบรมน้อยกว่า และประมวลผลน้อยลงมาก

แม้ว่าโปรแกรม OpenAI หรือ ChatGPT สมควรได้รับความชื่นชมทั้งหมดที่ได้รับมาในช่วงหลัง แต่ความจริงก็คือโปรแกรมนี้แทบจะไม่ซับซ้อนกว่าปกติเลย แต่สิ่งหนึ่งที่ ต้องใช้การฝึกฝนอย่างมากจึงจะทำงานได้ และต้องการพลังที่น่าทึ่งเพื่อตอบสนองต่อความท้าทายที่ซับซ้อนมากขึ้น และนี่คือตอนที่มันเริ่มล้มเหลว

ChatGPT

ทุกอย่างเริ่มต้นในปี 2017 เมื่อ Ashish Vaswani ซึ่งขณะนั้นเป็นหนึ่งในผู้นำการวิจัยของ Google ได้นำเสนอโปรแกรม Transformer AI ซึ่งเป็นรากฐานหรือบิดาของโปรแกรม AI ในปัจจุบัน ปัญหาก็คือว่า หม้อแปลงมีข้อบกพร่องใหญ่ . ในการทำงานนั้นจะใช้สิ่งที่เรียกว่า “ความสนใจ”: โปรแกรมจะรับข้อมูลในกลุ่มของสัญลักษณ์ เช่น คำ และย้ายข้อมูลนั้นไปยังกลุ่มสัญลักษณ์ใหม่ เช่น คำตอบที่เราเห็นใน ChatGPT

การดำเนินการตามความสนใจซึ่งเป็นเครื่องมือสำคัญของโปรแกรมปัจจุบันทั้งหมด รวมถึง ChatGPT และ GPT-4 มีความซับซ้อนในการคำนวณแบบ "กำลังสอง" โดยทั่วไปหมายความว่าเวลาที่ใช้ เพื่อให้ ChatGPT สร้างการตอบสนองเพิ่มขึ้นตามกำลังสองของข้อมูลที่ได้รับ .

นั่นคือ หากมีข้อมูลมากเกินไป (คำมากเกินไป แชทหลายบรรทัด หรือพิกเซลของรูปภาพ) โปรแกรมต้องการพลังงานของคอมพิวเตอร์มากขึ้นในการตอบสนอง และความต้องการนั้นทวีคูณขึ้นเองจนกระทั่งถึงขีดจำกัดซึ่งไม่ตอบสนองอย่างเพียงพออีกต่อไป

ใน บทความล่าสุด ทีมนักวิทยาศาสตร์จากมหาวิทยาลัยสแตนฟอร์ดและสถาบัน MILA ของแคนาดาได้เสนอเทคโนโลยีที่มีประสิทธิภาพมากกว่า GPT-4 และตั้งชื่อว่าไฮยีน่า ผู้เขียนรวมถึง Michael Poli จาก Stanford และ Yoshua Bengio หัวหน้าเจ้าหน้าที่วิทยาศาสตร์ของ MILA และ ผู้ชนะรางวัลทัวริงปี 2019 (วิทยาการคอมพิวเตอร์เทียบเท่ารางวัลโนเบล) Bengio ได้รับเครดิตจากการพัฒนากลไกการให้ความสนใจมานานก่อนที่จะมีโปรแกรม Transformer ของ Google พวกเขาเข้าร่วมโดย Christopher Ré ซึ่งช่วยส่งเสริมแนวคิดของ AI ในช่วงไม่กี่ปีที่ผ่านมาว่าเป็น "ซอฟต์แวร์ 2.0" มาเลย การเลือกสมองเฉพาะทางที่น่าสนใจ

ประสิทธิภาพคูณด้วย 100

เพื่อแสดงให้เห็นถึงความสามารถของไฮยีน่า ผู้เขียนได้ทดสอบการทดสอบที่แตกต่างกัน หนึ่งในนั้นเรียกว่า The Pile ซึ่งเป็นชุดข้อความขนาด 825 กิกะไบต์ ( เทียบเท่ากับหนังสือมากกว่า 250,000 เล่ม ) รวมตัวกันในปี 2020 โดย Eleuther.ai ซึ่งเป็นทีมวิจัย AI ที่ไม่แสวงหาผลกำไร ข้อความได้มาจากแหล่ง "คุณภาพสูง" เช่น PubMed, arXiv, GitHub, สำนักงานสิทธิบัตรของสหรัฐอเมริกา และอื่นๆ ดังนั้นข้อมูลจึงเข้มงวดกว่าการอภิปรายที่เห็นได้บน Twitter.

โปรแกรม Hyena ได้รับคะแนนเทียบเท่ากับ ChatGPT แต่มีการประมวลผลน้อยลง 20% ในงานอื่นๆ ไฮยีน่าทำคะแนนได้เท่ากับหรือใกล้เคียงกับ GPT เวอร์ชันหนึ่งแม้ว่าจะเป็นเช่นนั้นก็ตาม ฝึกฝนกับข้อมูลน้อยกว่าครึ่ง.

แต่สิ่งที่น่าสนใจก็มาถึง เมื่อทีมของ Poli เพิ่มความต้องการใน Hyena (มีการร้องขอข้อมูลมากขึ้นและการแลกเปลี่ยนเพิ่มขึ้นเมื่อเวลาผ่านไป) โปรแกรมจะทำงานได้ดีขึ้น ที่ 2,048 โทเค็นซึ่งสามารถคิดเป็นคำพูดได้ Hyena ใช้เวลาในการทำงานด้านภาษาน้อยกว่า GhatGPT แต่เมื่อถึง 64,000 โทเค็น ผู้เขียนทราบว่า ” ไฮยีน่าเร่งความเร็วถึง 100x ,” การปรับปรุงประสิทธิภาพ เป็นร้อยครั้ง

เท่านั้นยังไม่พอ โปรแกรมมีขนาดเล็กกว่า GPT-4 หรือแม้แต่ GPT-3 มาก ตัวอย่างเช่น ในขณะที่ GPT-3 มีพารามิเตอร์ 175 พันล้านพารามิเตอร์ แต่ Hyena รุ่นที่ใหญ่ที่สุดมีเพียง 1.3 พันล้านเท่านั้น กล่าวคือ มีการปรับปรุงประสิทธิภาพเป็นร้อยเท่าเมื่อเป็นที่ต้องการมากที่สุด... ด้วยพารามิเตอร์ที่น้อยลงกว่าร้อยเท่า. ความก้าวหน้าที่น่าสนใจยิ่งกว่าและความก้าวหน้าที่อาจทิ้ง ChatGPT ไว้เป็นความทรงจำที่ดีมาก… ในขณะที่มันยังคงอยู่