Phân tích kỹ thuật
Thái độ truyền thống về đánh giá AI đang sụp đổ. Trong nhiều năm, tiến bộ đã được lượng hóa rõ ràng bằng thứ hạng của mô hình trên bảng xếp hạng tĩnh liên kết với tập dữ liệu cố định. Tuy nhiên, cách tiếp cận này đã tạo ra những điểm mù lớn. Ô nhiễm tập dữ liệu và rò rỉ dữ liệu đã trở thành vấn đề phổ biến, khi dữ liệu kiểm tra vô tình ảnh hưởng đến quá trình huấn luyện, tạo ra ảo tưởng về khả năng. Hơn nữa, các mô hình tham gia vào quá khớp nhận dạng mẫu - ghi nhớ các đặc điểm thống kê của một tiêu chuẩn thay vì học nhiệm vụ nền tảng - dẫn đến hiệu suất kém trên các thay đổi phân phối hoặc đầu vào được diễn đạt một cách tinh tế.
Crisis về đo lường này đang thúc đẩy một cuộc cách mạng phương pháp luận. Đánh giá thế hệ tiếp theo ưu tiên các tiêu chuẩn động và đối kháng. Đây là các bài kiểm tra sống động, nơi tiêu chí đánh giá hoặc dữ liệu thay đổi phản ứng với sự cải thiện của mô hình, ngăn chặn việc ghi nhớ đơn giản. Cũng có sự thúc đẩy mạnh mẽ hướng tới các nhiệm vụ suy nghĩ phức tạp và đa bước yêu cầu mô hình phải diễn giải chuỗi suy nghĩ, làm cho quy trình suy nghĩ của chúng minh bạch hơn và ít phụ thuộc vào các mối tương quan nông cạn.
Hơn nữa, các tiêu chuẩn đang mở rộng để bắt giữ các tình huống đa chế độ và tương tác, vượt ra khỏi phân loại văn bản hoặc hình ảnh tĩnh để đi vào môi trường mô phỏng hành vi của các đại diện thực tế. Quan trọng nhất, khoa học mới về đánh giá nhấn mạnh khả năng tổng quát ngoài phân bố và kiểm tra căng thẳng dưới các điều kiện mới, các cuộc tấn công đối kháng hoặc với nhiễu thêm, cung cấp đánh giá trung thực hơn về độ bền của mô hình trong môi trường không đoán trước.