Analiza techniczna
Widzenie Wua Yongminga o „Siatce AI” dla Alibaba Cloud stanowi głęboką wyzwanię techniczne i architektoniczne. Metafora sugeruje stworzenie standardowego, niezawodnego i uniwersalnie dostępnego platformy dla obliczeń AI – daleko od aktualnego rozproszonego i często kosztownego krajobrazu. Technicznie wymaga to kilku podstawowych postępów.
Pierwszym jest abstrakcja i wirtualizacja heterogenicznych zasobów obliczeniowych. Skuteczna Siatka AI musi płynnie integrować i zarządzać różnymi sprzętem – od kart graficznych NVIDIA po różne akceleratory AI firm takich jak Huawei, Cambricon i własny PingTouGe Alibaby. Wymaga to zaawansowanego warstwy oprogramowania do inteligentnego planowania, zapewniającego automatyczne dopasowanie obciążeń do najbardziej wydajnych i dostępnych zasobów, maksymalizując ich wykorzystanie i minimalizując koszty.
Drugim jest opracowanie jednolitej stosu usług ułatwiającej cały cykl życia AI. Celem jest przejście od dostarczania infrastruktury jako usługi (IaaS) do kompleksowej platformy jako usługi (PaaS) dedykowanej AI. Obejmuje to zintegrowane narzędzia do przetwarzania danych, uczenia modeli, dopasowania, wdrażania i skalowania wnioskowania. Trudność techniczna polega na zbudowaniu tej sterty wystarczająco potężnej dla zaawansowanych zespołów AI i wystarczająco prostej dla małych i średnich firm (MSP) z ograniczoną wiedzą w zakresie ML.
Na koniec pojęcie „siatki” wymaga ekstremalnej niezawodności i stabilności – cech podobnych do sieci energetycznej. Oznacza to projektowanie z tolerancją błędów, spójnymi niskimi czasami odpowiedzi i solidną bezpieczeństwem w rozproszonych centrach danych. Podstawowa architektura sieci musi zostać przebudowana, aby móc obsługiwać ogromne, impulsowe przepływy danych charakterystyczne dla obciążeń AI, przechodząc dalej po wymaganiach tradycyjnego handlu elektronicznego lub chmury biznesowej.