สนทนา a16z: LLM เป็นการบีบอัดข้อมูลแบบสูญเสีย โมเดลโลกเป็นทิศทางที่แท้จริง

金色财经_
A-0.09%

World Labs เป็นบริษัทสตาร์ทอัพที่ก่อตั้งขึ้นในปี 2024 โดย Li Feifei ศาสตราจารย์ที่มีชื่อเสียงด้าน AI จากมหาวิทยาลัยสแตนฟอร์ด ซึ่งมุ่งมั่นในการพัฒนาระบบ AI รุ่นถัดไปที่มี “ปัญญาเชิงพื้นที่”

นับตั้งแต่ก่อตั้ง World Labs ได้เสร็จสิ้นการระดมทุนสองรอบรวมประมาณ 230 ล้านดอลลาร์ นักลงทุนรายใหญ่ ได้แก่ a16z, Radical Ventures, NEA, Nvidia NVentures, AMD Ventures และ Intel Capital เป็นต้น การประเมินมูลค่าของ บริษัท ทะลุ 1 พันล้านดอลลาร์ในเวลาเพียงสามเดือนทําให้เป็นยูนิคอร์นตัวใหม่ในพื้นที่ AI

เมื่อเร็ว ๆ นี้ Li Feifei ได้พูดคุยกับหุ้นส่วนสองคนของ a16z, Martin Casado และ Eric Torenberg และเธอได้พูดคุยต่อสาธารณชนเป็นครั้งแรกเกี่ยวกับการสร้างแนวคิดทิศทางการวิจัยและวิสัยทัศน์ที่ยิ่งใหญ่เบื้องหลังการร่วมก่อตั้ง World Labs: อดีตและปัจจุบันของกลยุทธ์แพลตฟอร์ม a16z: จาก VC “ไม่เต็มใจที่จะเช็ดตูด” ไปจนถึง “บริการฟูลสแต็ค”

李飞飞เริ่มต้นด้วยการชี้ให้เห็นถึงจุดสำคัญของการสนทนาครั้งนี้ว่า: “ฉันไม่ต้องการให้โมเดลภาษาขนาดใหญ่โน้มน้าวฉัน โมเดลโลกต่างหากที่เป็นทิศทางที่สำคัญจริงๆ.”

เธอเน้นว่าความฉลาดเชิงพื้นที่ไม่ว่าจะเป็นโลกทางกายภาพสามมิติที่เราอาศัยอยู่หรือจักรวาลดิจิทัลในจินตนาการเป็นส่วนสําคัญของความฉลาด และวันนี้ในที่สุดเราก็มีความสามารถในการสร้างและสร้างจักรวาลเหล่านี้ขึ้นมาใหม่

▍****อัจฉริยะที่เก่าแก่กว่าภาษา: การรับรู้เชิงพื้นที่และการสร้างใหม่สามมิติ

Li Feifei ชี้ให้เห็นว่าเมื่อเทียบกับภาษาการรับรู้เชิงพื้นที่เป็นความสามารถที่เก่าแก่และสัญชาตญาณในกระบวนการวิวัฒนาการของมนุษย์ เธอแบ่งปันประสบการณ์ส่วนตัว: เมื่อไม่กี่ปีที่ผ่านมาเนื่องจากการบาดเจ็บที่กระจกตาซึ่งทําให้เกิดการสูญเสียการมองเห็นแบบสามมิติในช่วงเวลานั้นเธอกลัวที่จะขับรถคนเดียวแม้บนถนนที่คุ้นเคยและเป็นเรื่องยากที่จะตัดสินระยะทางจากรถข้างๆเธอ

ประสบการณ์ทดลองนี้ทำให้เธอเข้าใจถึงบทบาทพื้นฐานของระบบการรับรู้สามมิติในกิจกรรมของมนุษย์อย่างลึกซึ้ง และสำหรับ AI หากไม่สามารถสร้างแบบจำลองโลกสามมิติได้ ก็จะไม่สามารถเข้าใจ ดำเนินการ หรือสร้างโลกแห่งความเป็นจริงได้อย่างแท้จริง

Martin Casado เสริมว่าการขาดความฉลาดสามมิตินี้เป็นสาเหตุสําคัญที่ทําให้หุ่นยนต์และระบบข่าวกรองที่เป็นตัวเป็นตนลงจอดได้ช้า เขาใช้ตัวอย่างของคนธรรมดาเพื่ออธิบายว่าถ้าคุณพาคนเข้าไปในห้องแปลก ๆ ให้ปิดตาเขาอธิบายพื้นที่ด้วยคําพูดเพียงอย่างเดียวแล้วปล่อยให้เขาทํางานให้เสร็จ - มันแทบจะเป็นไปไม่ได้เลย เมื่อเปิดตาแล้วสมองจะสร้างแบบจําลองเชิงพื้นที่ใหม่โดยอัตโนมัติและดําเนินการให้เสร็จสิ้น ความสามารถในการสร้างใหม่ประเภทนี้ขาดอย่างสมบูรณ์ในแบบจําลองภาษากระแสหลักในปัจจุบัน

▍****จุดเปลี่ยนเทคโนโลยีจาก NeRF สู่โมเดลโลก

เมื่อพูดถึงเหตุผลที่เลือกก่อตั้ง World Labs ในขณะนี้ ลีเฟยเฟยเชื่อว่านี่เป็นผลมาจากการสะสมการวิจัยทางวิชาการและฐานอุตสาหกรรมในระยะยาว.

เธอจําได้ว่าเมื่อสี่ปีที่แล้วความก้าวหน้าด้านการวิจัยที่เรียกว่า NeRF (Neural Radiance Field) ได้เปิดช่องทางใหม่สําหรับการสร้างแบบจําลองวิสัยทัศน์ 3 มิติ ผู้เสนอ NeRF ไม่ใช่ใครอื่นนอกจาก Ben Mildenhall ซึ่งเป็นหนึ่งในผู้ร่วมก่อตั้ง World Labs ในปัจจุบัน

และผู้ก่อตั้งอีกคนหนึ่ง Christopher ได้ทำการวิจัยที่ก้าวล้ำในด้านการแสดงผลสามมิติอย่างมีประสิทธิภาพ ซึ่งส่งเสริมการกลับมาของการสร้างแบบจำลอง 3 มิติแบบปริมาตรในอุตสาหกรรม.

ประกอบกับจัสติน จอห์นสัน ซึ่งเป็นผู้เริ่มใช้เทคโนโลยี GAN ในยุคแรกๆ สําหรับการถ่ายโอนรูปแบบภาพ การค้นพบที่กระจัดกระจายเหล่านี้ถูกนํามารวมกันในทีมเดียวกันเกี่ยวกับเป้าหมาย “North Star” นั่นคือการสร้างขีดความสามารถของโมเดลโลกของ AI

มาร์ตินกล่าวถึงเป้าหมายนี้ในการบูรณาการอย่างลึกซึ้งของสองระบบ: แบบจําลอง AI ข้อมูลและสถาปัตยกรรมเองและระบบวิศวกรรมสําหรับการเรนเดอร์กราฟิกและการสร้างพื้นที่ใหม่ การทําให้ผู้เชี่ยวชาญจากสองโลกนี้ทํางานร่วมกันอย่างมีประสิทธิภาพบนแพลตฟอร์มเดียวถือเป็นนวัตกรรมขององค์กรที่สําคัญในอุตสาหกรรมเทคโนโลยี

▍****โมเดลภาษามิใช่จุดสิ้นสุด แต่เป็นบทนำ

李飞飞เน้นย้ำว่า ความเชื่อของเธอในโมเดลโลกไม่ได้มาจากความผิดหวังต่อ LLM แต่เป็นการเข้าใจถึงธรรมชาติของปัญญาอย่างลึกซึ้งขึ้น.

เธอชี้ให้เห็นว่าภาษาเป็นรูปแบบการรับรู้ที่ “ทำให้ลดทอน” ซึ่งทำให้โลกถูกทำให้เป็นนามธรรม แต่ก็สูญเสียข้อมูลทางกายภาพและการรับรู้ที่หลากหลายไป โลกแห่งความเป็นจริงที่แท้จริงไม่มีคำ ไวยากรณ์ และข้อความ มีแต่กายภาพ การเคลื่อนไหว และโครงสร้างสามมิติเท่านั้น

การรับรู้นี้ยังเปลี่ยนการรับรู้ของเธอว่า บริษัท AI ควรมีลักษณะอย่างไร เธอเปลี่ยนจากศาสตราจารย์สแตนฟอร์ดเป็นผู้ประกอบการเพราะเธอตระหนักว่าการวิจัยทางวิชาการเพียงอย่างเดียวไม่เพียงพอที่จะสร้างแบบจําลองความฉลาดเชิงพื้นที่ซึ่งต้องใช้การลงทุนด้านคอมพิวเตอร์อุตสาหกรรมการจัดตารางเวลาสถาปัตยกรรมระดับระบบและความสามารถในการทํางานร่วมกันของผู้มีความสามารถข้ามพรมแดนชั้นนํา

และทั้งหมดนี้ จะเกิดขึ้นได้จริงๆ ก็ต่อเมื่ออยู่ในบริษัทที่มีระดับการจัดระเบียบสูงมาก และมีความสามารถในการทำงานร่วมกันของวิศวกรรมแบบครบวงจรที่โดดเด่นเท่านั้น

▍****การใช้งานอัจฉริยะในพื้นที่เกินกว่าหุ่นยนต์

สำหรับคนส่วนใหญ่ “โมเดลโลก” ยังคงเป็นคำศัพท์ทางวิทยาศาสตร์ที่เป็นนามธรรม แต่ Li Feifei และ Martin ได้ชี้ให้เห็นว่าการใช้งานของมันกว้างขวางเกินกว่าการขับขี่อัตโนมัติและหุ่นยนต์.

ความคิดสร้างสรรค์เป็นภาพโดยเนื้อแท้ การออกแบบอุตสาหกรรมการสร้างภาพยนตร์องค์ประกอบทางสถาปัตยกรรมและแม้แต่การพัฒนาเกมล้วนขึ้นอยู่กับการก่อสร้างและการควบคุม 3 มิติ และถ้า AI มีความสามารถในการสร้างแบบจําลองโลกมันไม่เพียง แต่สามารถ “เข้าใจ” โลก 3 มิติ แต่ยัง “สร้าง” และ “จัดการ” พื้นที่เสมือน

มาร์ตินอธิบายว่าด้วยรูปถ่ายของตารางแบบจําลองสามารถอนุมานรูปแบบและวัสดุที่อยู่เบื้องหลังเพื่อสร้างฉากเชิงพื้นที่ที่สมบูรณ์ ยิ่งไปกว่านั้นผู้ใช้ยังสามารถวัดเพิ่มลบหรือออกแบบพื้นที่ใหม่ได้ นี่เป็นวิธีการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ที่ใช้งานง่ายและฟรีกว่าคําสั่งข้อความและยังเปิดมิติใหม่ของการออกแบบการสร้างและการทดลองจําลอง

Li Feifei ยังชี้ให้เห็นว่าพื้นที่ดิจิทัลกําลังนําโอกาสที่ไม่เคยมีมาก่อนสําหรับการเปลี่ยนแปลง: "มนุษย์อาศัยอยู่ในโลกทางกายภาพสามมิติเท่านั้น แต่โลกดิจิทัลเป็นครั้งแรกที่จะอนุญาตให้เราเข้าสู่ ‘มัลติเวิร์ส’ ”

เธอยกตัวอย่างบางส่วน: จักรวาลที่สร้างขึ้นสําหรับหุ่นยนต์จักรวาลเพื่อความคิดสร้างสรรค์ของมนุษย์และการเล่าเรื่องการสื่อสารและการเดินทางเชิงประสบการณ์ ช่องว่างเหล่านี้ซึ่งครั้งหนึ่งเคยมีอยู่ในจินตนาการเท่านั้นตอนนี้จะถูกสร้างขึ้นเข้าใจใช้และเปลี่ยนแปลงโดยเครื่องจักรอย่างแท้จริง

▍****โมเดลพื้นฐานสำหรับการต่อสู้ครั้งต่อไป, การสร้างแบบจำลองภาพสามมิติแบบพาโนรามา

กลับมาที่เทคโนโลยีเอง Li Feifei เน้นย้ําว่า World Labs ไม่ได้เป็นเพียงการสร้าง AI ที่ “สามารถมองเห็นได้” แต่ยังเกี่ยวกับการทําให้ AI เข้าใจโครงสร้างสามมิติพลวัตและตรรกะรวมของโลก มันไม่ใช่แค่ปัญหาทางวิศวกรรมที่ยากขึ้น แต่เป็นปรัชญาใหม่ของการเป็นตัวแทน

เธอเชื่อว่าการค้นพบทางวิทยาศาสตร์เช่นโครงสร้างเกลียวคู่ของ DNA และทรงกลมบัคกี้เป็นผลมาจากความฉลาดเชิงพื้นที่ มันเป็นไปไม่ได้ที่จะได้รับรูปทรงเรขาคณิตดังกล่าวอย่างหมดจดโดยภาษา นี่คือเหตุผลที่แบบจําลองโลกไม่เพียง แต่สามารถปรับปรุงความสามารถในการเข้าใจของเครื่องจักร แต่ยังเปิดเส้นทางสร้างสรรค์ใหม่สําหรับวิทยาศาสตร์และศิลปะของมนุษย์

Martin สรุปว่า การปฏิวัติที่เกิดจาก LLM ได้พิสูจน์ข้อเท็จจริงหนึ่ง: เมื่อเราหาทางสร้างโครงสร้างข้อมูลและรูปแบบของโมเดลที่ถูกต้อง ความสามารถของ AI จะเพิ่มขึ้นอย่างก้าวกระโดด ตอนนี้พวกเขาเชื่อว่า “โมเดลโลก” กำลังยืนอยู่ที่จุดวิกฤตที่คล้ายกัน.

▍****กุญแจในการเข้าใจและสร้างโลก

“เราอาจจะกำลังเดินถอยหลังเข้าสู่เส้นทางวิวัฒนาการ” มาร์ตินเสนอความคิดนี้ขึ้นมา ขณะนั้นการสนทนาทั้งหมดก็ได้เข้าสู่ระดับปรัชญา.

ภาษาเป็นหนึ่งในโมดูลล่าสุดในวิวัฒนาการของสมองมนุษย์ในขณะที่ระบบการรับรู้เชิงพื้นที่มีมาตั้งแต่สมัยสัตว์ขาปล้องและมีมานาน 500 ล้านปี AI ในปัจจุบันหากเพียง “เรียนรู้ภาษา” ก็ไม่สามารถเรียกได้ว่า “เข้าใจโลก” ด้วยการสร้างแบบจําลองอวกาศที่เหมือนมนุษย์เท่านั้นที่ AI สามารถก้าวเข้าสู่ประตูของ “ความฉลาดที่เป็นตัวเป็นตน” ได้อย่างแท้จริง

ลีเฟยเฟยสรุปด้วยน้ำเสียงที่มั่นคงว่า: “ฉันรอคอยวันนี้มานาน ไม่ใช่เพราะฉันไม่เชื่อในโมเดลภาษา แต่เพราะฉันรู้ดีว่า: โลกที่แท้จริง ไม่ใช่โลกที่ประกอบด้วยข้อความ.”

โมเดลโลกเป็นกุญแจสําคัญในการทําให้ AI เข้าใจและสร้างโลกได้อย่างแท้จริง จาก I/O สู่ iO Jony Ive จะขับเคลื่อนการเคลื่อนไหวการออกแบบใหม่ – AI กําลังเขียนกระบวนทัศน์การประมวลผลและคําจํากัดความของฮาร์ดแวร์ใหม่ และยังเป็นสมรภูมิใหม่ที่อยู่เบื้องหลังโมเดลขนาดใหญ่

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น