Teknik Analiz
Covenant-72B'nin ön eğitiminin tamamlanması, merkeziyetsiz makine öğrenimine özgü bir dizi karmaşık teknik zorluğu çözen anıtsal bir mühendislik başarısıdır. Temel yenilik, yeni bir model mimarisinde değil, heterojen, küresel olarak dağıtılmış donanım üzerinde istikrarlı ve verimli eğitimi mümkün kılan protokoller, çerçeveler ve teşvik mekanizmalarından oluşan orkestrasyon katmanındadır.
Geleneksel büyük model eğitimi, binlerce özdeş GPU arasında gradyanları senkronize etmek için tek bir veri merkezi içindeki sıkı bağlı, yüksek bant genişlikli bağlantılara dayanır. Covenant projesi, gecikme, düğüm değişimi (katılımcıların katılması ve ayrılması), donanım çeşitliliği ve güven sorunlarının üstesinden gelmek zorundaydı. Bunu, sağlam kontrol noktası oluşturma ile asenkron eğitim tekniklerinin birleşimi, katılımcıların kendilerine atanan eğitim görevlerini doğru şekilde yürüttüğünden emin olmak için yeni bir doğrulanabilir hesaplama protokolü ve katkıyı doğrulanabilir iş birimleri ve veri kalitesine dayanarak ödüllendiren token tabanlı bir teşvik sistemi ile başardı.
Kritik bir atılım, önemli gecikmeleri ve kısmi güncellemeleri ıraksamadan işleyebilen hata toleranslı dağıtık bir optimize edicinin geliştirilmesiydi. Bu, ağın önemli bir kısmı geçici olarak çevrimdışı veya yavaş olsa bile modelin ilerleme kaydetmesini sağlar. Ayrıca proje, ön eğitim için gereken çeşitli veri kümelerini işlemek için bir gereklilik olan, güvenilmeyen düğümler arasında eğitim verilerinin gizliliğini ve bütünlüğünü sağlamak amacıyla gelişmiş veri yönlendirme ve parçalama uyguladı.
Sonuç, eğitim süreci ve nihai kıyaslama performansı, merkeziyetsiz koordinasyonun ilk kez daha önce yalnızca merkezi kümlelere özgü olan istikrara denk gelebileceğini gösteren 72B parametreli bir modeldir. Bu, fiziksel altyapıya yapılan sermaye harcaması yerine dayanıklılık ve gönüllü katılım üzerine inşa edilmiş yeni bir AI geliştirme yazılım yığınını doğrulamaktadır.
Endüstri Etkisi
Covenant-72B'nin başarısı, AI endüstrisinde sismik dalgalar yaratıyor ve temel ekonomik ve operasyonel varsayımları sorguluyor. Yıllardır, sınır AI inşa etmenin veri merkezleri için milyarlarca dolarlık sermaye gerektirdiği, en iyi fonlanan şirketler ve ülkeler dışında herkes için aşılmaz bir savunma hattı oluşturduğu anlatılıyordu. Bu proje, kolektif, dağıtık kaynakların benzer bir sonuca ulaşmak için seferber edilebileceğini kanıtlayarak bu anlatıyı yıkıyor.
En yakın etki, erişimin demokratikleşmesidir. Bağımsız araştırmacılar, akademik kurumlar ve daha küçük startup'lar artık kurumsal sponsorluk veya bulut kredisi gerektirmeden sınır ölçeğinde model geliştirmeye katkıda bulunmak ve ondan faydalanmak için uygulanabilir bir yol buluyor. Bu, yeni araştırmalar ve özelleştirilmiş ince ayar için giriş engelini düşürüyor ve genel amaçlı kurumsal modeller için ekonomik olmayan niş ve dikey uygulamalarda bir yenilik dalgasını potansiyel olarak tetikleyebilir.
Şeffaflık ve denetlenebilirlik, bu yaklaşımın doğal özellikleri haline gelir.