การวิเคราะห์ทางเทคนิค
ธีมที่ประกาศของงาน Singularity Conference 2026 เน้นย้ำถึงจุดเปลี่ยนทางเทคนิคที่สำคัญ อุตสาหกรรมกำลังก้าวข้ามโครงสร้างของโมเดลแบบแยกเดี่ยวและไร้สถานะ (stateless) ที่ประมวลผลคำสั่งในขั้นตอนเดียว (single forward pass) ความท้าทายหลักในตอนนี้คือการออกแบบระบบบูรณาการที่ส่วนประกอบ AI ต่างๆ ทำงานประสานกันเพื่อให้เกิดความเป็นตัวแทน (agency)
ความเชื่อมโยงระหว่าง Agent และ World Model: หัวใจของการเปลี่ยนแปลงนี้คือความสัมพันธ์แบบพึ่งพาอาศัยกันระหว่าง AI Agent และ World Model Agent ให้กรอบการทำงานสำหรับพฤติกรรมที่มุ่งสู่เป้าหมาย ได้แก่ การรับรู้ การวางแผน การดำเนินการ และการเรียนรู้จากผลตอบรับ อย่างไรก็ดี เพื่อให้ Agent สามารถกระทำได้อย่างมีประสิทธิภาพในสภาพแวดล้อมที่ซับซ้อนและมีความสุ่ม มันจำเป็นต้องมีโมเดลเชิงทำนายของสภาพแวดล้อมนั้น นี่คือบทบาทของ World Model แทนที่จะเป็นฐานข้อมูลขนาดใหญ่ชุดเดียว World Model คือการจำลองที่เรียนรู้มา มักเป็นแบบ generative ของการเปลี่ยนแปลงสถานะของโลกที่ตอบสนองต่อการกระทำต่างๆ มันทำให้ Agent สามารถ "จินตนาการ" อนาคตที่เป็นไปได้ ประเมินกลยุทธ์ และหลีกเลี่ยงความล้มเหลวร้ายแรงในพื้นที่คำนวณที่ปลอดภัย ก่อนที่จะลงมือกระทำจริง การผสานโมเดลการสร้างวิดีโอขั้นสูงเป็นตัวช่วยสำคัญในที่นี้ เนื่องจากมันให้ฐานข้อมูลแบบหลายโหมด (multi-modal) ที่อุดมสมบูรณ์สำหรับการฝึกฝนและรันการจำลองโลกเหล่านี้ โดยเฉพาะสำหรับสถานการณ์ทางกายภาพและสังคม
เชื่อมช่องว่างระหว่างการจำลองและความเป็นจริง: อุปสรรคทางเทคนิคหลักคือการทำให้แน่ใจว่าการทำนายของ World Model มีความแม่นยำและแข็งแกร่งพอที่จะถ่ายโอนไปสู่โลกแห่งความเป็นจริง เทคนิคต่างๆ เช่น การเรียนรู้แบบ self-supervised บนชุดข้อมูลขนาดใหญ่แบบหลายโหมด (วิดีโอ ข้อมูลเซ็นเซอร์ คำอธิบายข้อความ) และการเรียนรู้แบบเสริมแรง (reinforcement learning) ภายในสภาพแวดล้อมจำลอง มีความสำคัญอย่างยิ่ง เป้าหมายคือการพัฒนาโมเดลที่จับได้ไม่เพียงแค่วัตถุสถิต แต่รวมถึงพลวัต ความสามารถในการกระทำ (affordances) กฎฟิสิกส์ และแม้แต่บรรทัดฐานทางสังคม นอกจากนี้ สถาปัตยกรรมของ Agent ต้องจัดการกับความคลาดเคลื่อนที่หลีกเลี่ยงไม่ได้ระหว่างโมเดลและความเป็นจริง ผ่านการรับรู้แบบเรียลไทม์ที่แข็งแกร่งและการวางแผนที่ปรับตัวได้
จาก LLM ในฐานะสมอง สู่ LLM ในฐานะระบบย่อย: ในกระบวนทัศน์ใหม่นี้ LLM ไม่ได้ล้าสมัยไป บทบาทของมันวิวัฒนาการขึ้น มันมักทำหน้าที่เป็นเครื่องมือใช้เหตุผลระดับสูง ตัวแยกย่อยงาน (task decomposer) และอินเทอร์เฟซการสื่อสารภายใน Agent มันแปลคำสั่งภาษาธรรมชาติให้เป็นเป้าหมายย่อยที่ดำเนินการได้ ซึ่งจะถูกประมวลผลโดย World Model เพื่อตรวจสอบความเป็นไปได้และการวางแผน ฐานความรู้ของ LLM เป็นข้อมูลเบื้องต้น (priors) ให้กับ World Model แต่ World Model จะยึดโยงความรู้นี้กับบริบทเชิงลำดับที่ดำเนินการได้