การวิเคราะห์ทางเทคนิค
การเสร็จสิ้นการฝึกฝนล่วงหน้าของ Covenant-72B เป็นความสำเร็จทางวิศวกรรมอันยิ่งใหญ่ที่แก้ไขชุดความท้าทายทางเทคนิคที่ซับซ้อนซึ่งมีอยู่ในการเรียนรู้ของเครื่องแบบกระจายศูนย์ นวัตกรรมหลักไม่ได้อยู่ที่สถาปัตยกรรมโมเดลใหม่ แต่อยู่ที่ชั้นการประสานงาน (orchestration layer) ซึ่งเป็นชุดของโปรโตคอล เฟรมเวิร์ก และกลไกการจูงใจที่ทำให้การฝึกฝนที่มีเสถียรภาพและมีประสิทธิภาพข้ามฮาร์ดแวร์ที่หลากหลายและกระจายตัวทั่วโลกเป็นไปได้
การฝึกฝนโมเดลขนาดใหญ่แบบดั้งเดิมอาศัยการเชื่อมต่อภายในศูนย์ข้อมูลเดียวที่มีแบนด์วิธสูงและเชื่อมโยงกันอย่างแน่นหนาเพื่อซิงโครไนซ์เกรเดียนต์ข้าม GPU หลายพันตัวที่เหมือนกัน โครงการ Covenant ต้องเอาชนะความล่าช้า การเปลี่ยนแปลงของโหนด (ผู้เข้าร่วมที่เข้ามาและออก) ความแตกต่างของฮาร์ดแวร์ และปัญหาด้านความไว้วางใจ ซึ่งทำได้ผ่านการผสมผสานเทคนิคการฝึกฝนแบบอะซิงโครนัสกับการบันทึกจุดตรวจสอบ (checkpointing) ที่แข็งแกร่ง โปรโตคอลการคำนวณที่สามารถตรวจสอบได้ใหม่เพื่อให้แน่ใจว่าผู้เข้าร่วมดำเนินงานฝึกฝนที่ได้รับมอบหมายอย่างถูกต้อง และระบบจูงใจแบบโทเค็นที่ให้รางวัลตามหน่วยงานที่ตรวจสอบได้และคุณภาพของข้อมูล
ความก้าวหน้าที่สำคัญคือการพัฒนาตัวเพิ่มประสิทธิภาพแบบกระจายที่ทนต่อความผิดพลาด (fault-tolerant distributed optimizer) ซึ่งสามารถจัดการกับความล่าช้าที่มีนัยสำคัญและการอัปเดตบางส่วนได้โดยไม่ทำให้กระบวนการเบี่ยงเบน ซึ่งทำให้โมเดลยังคงก้าวหน้าได้แม้ว่าส่วนใหญ่ของเครือข่ายจะออฟไลน์ชั่วคราวหรือทำงานช้า นอกจากนี้ โครงการยังได้ใช้การกำหนดเส้นทางและแบ่งส่วนข้อมูลขั้นสูงเพื่อรับประกันความเป็นส่วนตัวและความสมบูรณ์ของข้อมูลฝึกฝนข้ามโหนดที่ไม่น่าเชื่อถือ ซึ่งเป็นสิ่งจำเป็นสำหรับการจัดการชุดข้อมูลที่หลากหลายที่ต้องใช้ในการฝึกฝนล่วงหน้า
ผลลัพธ์คือโมเดลขนาด 72 พันล้านพารามิเตอร์ ซึ่งแนวทางการฝึกฝนและประสิทธิภาพในการทดสอบมาตรฐานขั้นสุดท้ายแสดงให้เห็นว่าเป็นครั้งแรกที่การประสานงานแบบกระจายศูนย์สามารถเทียบเคียงความเสถียรภาพที่ก่อนหน้านี้มีเฉพาะในคลัสเตอร์แบบรวมศูนย์ได้ สิ่งนี้ยืนยันสแต็กทางเทคนิคใหม่สำหรับการพัฒนา AI ซึ่งสร้างขึ้นบนความยืดหยุ่นและการมีส่วนร่วมโดยสมัครใจ แทนที่จะเป็นการใช้จ่ายเงินทุนสำหรับโครงสร้างพื้นฐานทางกายภาพ
ผลกระทบต่ออุตสาหกรรม
ความสำเร็จของ Covenant-72B ส่งคลื่นสั่นสะเทือนไปทั่วอุตสาหกรรม AI ท้าทายสมมติฐานพื้นฐานทางเศรษฐกิจและการดำเนินงานมายาวนาน เป็นเวลาหลายปีที่เรื่องเล่าคือการสร้าง AI ขั้นสูง (frontier AI) ต้องการเงินทุนหลายพันล้านสำหรับศูนย์ข้อมูล สร้างคูเมืองที่ข้ามไม่ได้สำหรับทุกคนยกเว้นบริษัทและประเทศที่ได้รับเงินสนับสนุนมากที่สุด โครงการนี้ทำลายเรื่องเล่านั้น โดยพิสูจน์ว่าทรัพยากรแบบรวมกลุ่มและกระจายตัวสามารถถูกระดมเพื่อให้ได้ผลลัพธ์ที่คล้ายกันได้
ผลกระทบทันทีคือการทำให้การเข้าถึงเป็นประชาธิปไตย นักวิจัยอิสระ สถาบันการศึกษา และสตาร์ทอัพขนาดเล็ก ตอนนี้มีเส้นทางที่เป็นไปได้ที่จะมีส่วนร่วมและได้รับประโยชน์จากการพัฒนาโมเดลระดับขั้นสูง โดยไม่จำเป็นต้องได้รับการสนับสนุนจากองค์กรหรือเครดิตคลาวด์ สิ่งนี้ลดอุปสรรคในการเริ่มต้นการวิจัยใหม่และการปรับแต่งเฉพาะทาง ซึ่งอาจปลดปล่อยคลื่นแห่งนวัตกรรมในแอปพลิเคชันเฉพาะทางและแนวตั้งที่ไม่มีเศรษฐกิจสำหรับโมเดลองค์กรทั่วไป
ความโปร่งใสและการตรวจสอบได้กลายเป็นคุณสมบัติที่มีมาแต่เดิม