Phân tích kỹ thuật
Khái niệm 'Mạng lưới Trí tuệ nhân tạo' của Ngô Dĩnh Minh đối với Alibaba Cloud đại diện cho một thách thức kỹ thuật và kiến trúc sâu sắc. Từ ngữ ẩn dụ này ám chỉ việc tạo ra một nền tảng tính toán AI được chuẩn hóa, đáng tin cậy và dễ tiếp cận cho tất cả - hoàn toàn khác biệt so với hiện trạng phân mảnh và thường đắt đỏ. Về mặt kỹ thuật, điều này đòi hỏi một số tiến bộ cơ bản.
Đầu tiên là việc trừu tượng hóa và ảo hóa các tài nguyên tính toán đa dạng. Một Mạng lưới Trí tuệ nhân tạo hiệu quả phải tích hợp và quản lý một cách liền mạch nhiều loại phần cứng - từ GPU của NVIDIA đến các gia tốc AI từ các công ty như Huawei, Cambricon, và chính PingTouGe của Alibaba. Điều này đòi hỏi một lớp phần mềm phức tạp để lên lịch thông minh, đảm bảo các tác vụ được tự động ghép nối với tài nguyên hiệu quả và có sẵn nhất, tối đa hóa việc sử dụng và giảm chi phí.
Thứ hai là việc phát triển một stack dịch vụ thống nhất đơn giản hóa toàn bộ vòng đời AI. Mục tiêu là chuyển từ việc cung cấp Cơ sở hạ tầng dưới dạng Dịch vụ (IaaS) sang một Nền tảng dưới dạng Dịch vụ (PaaS) toàn diện dành riêng cho AI. Điều này bao gồm các công cụ tích hợp cho xử lý dữ liệu, huấn luyện mô hình, tinh chỉnh, triển khai và mở rộng suy diễn. Thách thức kỹ thuật là xây dựng stack này đủ mạnh để phục vụ các nhóm AI tiên tiến và đủ đơn giản để các doanh nghiệp vừa và nhỏ (SMEs) có ít chuyên môn ML có thể sử dụng.
Cuối cùng, khái niệm 'mạng lưới' đòi hỏi độ tin cậy và ổn định cực kỳ cao - những đặc điểm tương tự như tiện ích điện. Điều này có nghĩa là thiết kế để chịu lỗi, hiệu suất độ trễ thấp nhất quán và an ninh vững chắc trên các trung tâm dữ liệu phân bố địa lý. Kiến trúc mạng nền tảng phải được thiết kế lại để xử lý luồng dữ liệu lớn và đột ngột đặc trưng của các tác vụ AI, vượt xa yêu cầu của thương mại điện tử truyền thống hoặc điện toán đám mây doanh nghiệp.