Yang Likun: Thật vô nghĩa khi chỉ dựa vào LLM để đạt được AGI và AI cần mô hình thế giới JEPA trong tương lai (phỏng vấn 10.000 từ tại hội nghị GTC)

Bài viết này đối chiếu nguyên văn cuộc trò chuyện công khai giữa Yann LeCun, nhà khoa học AI chính của Meta và người chiến thắng giải thưởng Turing, và nhà khoa học trưởng của NVIDIA Bill Dally. LeCun giải thích lý do tại sao ông nghĩ rằng các mô hình ngôn ngữ lớn (LLM) không bao giờ có thể thực sự triển khai AGI. (Tóm tắt: OpenAI phát hành o3 và o4-mini Các mô hình suy luận mạnh nhất: có thể suy nghĩ về hình ảnh, tự động chọn công cụ và tạo đột phá trong toán học và hiệu suất mã hóa) (Bổ sung nền: OpenAI bí mật tạo ra "nền tảng cộng đồng riêng" của riêng mình, chỉ vào X của Musk) Khi các mô hình ngôn ngữ lớn (LLM) đang đẩy nhanh sự đón nhận AI của thế giới, Yann LeCun, được biết đến là cha đẻ của mạng nơ-ron tích chập và hiện là nhà khoa học AI chính tại Meta, gần đây đã nói một cách đáng ngạc nhiên rằng sự quan tâm của ông đối với LLM đã suy yếu và ông thậm chí còn tin rằng nó gần với nút thắt cổ chai của sự phát triển LLM. Trong một cuộc trò chuyện chuyên sâu với nhà khoa học trưởng của NVIDIA Bill Dally vào tháng trước, LeCun đã trình bày chi tiết những hiểu biết độc đáo của mình về hướng tương lai của AI, nhấn mạnh rằng sự hiểu biết về thế giới vật lý, trí nhớ lâu dài, khả năng lý luận và lập kế hoạch, và tầm quan trọng của hệ sinh thái nguồn mở là chìa khóa để dẫn đầu làn sóng tiếp theo của cuộc cách mạng AI. Bill Dally: Yann, rất nhiều điều thú vị đã xảy ra trong không gian AI trong năm qua. Theo ông, đâu là diễn biến sôi nổi nhất trong năm qua? Yann LeCun: Quá nhiều để đếm, nhưng hãy để tôi nói với bạn một điều có thể làm một số bạn ngạc nhiên. Tôi không còn quan tâm đến các mô hình ngôn ngữ lớn (LLM) nữa. LLM đã ở cuối đuôi, chúng nằm trong tay những người sản phẩm trong ngành, nhưng chúng đang cải thiện ở cấp độ cận biên, cố gắng lấy nhiều dữ liệu hơn, nhiều sức mạnh tính toán hơn, tạo ra dữ liệu tổng hợp. Tôi nghĩ rằng có nhiều vấn đề thú vị hơn trong bốn lĩnh vực: làm thế nào để máy móc hiểu thế giới vật chất, làm thế nào để làm cho chúng có một trí nhớ lâu dài, điều này không được nói đến nhiều, và hai vấn đề cuối cùng là làm thế nào để khiến chúng suy luận và lập kế hoạch. Tất nhiên, đã có một số nỗ lực để LLM làm lý luận, nhưng theo tôi đây là một cách nhìn rất đơn giản về lý luận. Tôi nghĩ có thể có một cách tốt hơn để làm điều này. Vì vậy, tôi rất vui mừng về những điều mà nhiều người trong cộng đồng công nghệ có thể không hào hứng cho đến năm năm kể từ bây giờ. Nhưng bây giờ, chúng trông kém thú vị hơn vì chúng là một số bài báo học thuật tối nghĩa. Hiểu mô hình thế giới và thế giới vật lý Bill Dally: Nhưng nó sẽ là gì nếu LLM không lý luận về thế giới vật chất, có trí nhớ dai dẳng và lập kế hoạch? Mô hình cơ bản sẽ là gì? Yann LeCun: Vì vậy, rất nhiều người đang làm việc trên mô hình thế giới. Mô hình thế giới là gì? Tất cả chúng ta đều có những mô hình của thế giới trong đầu. Về cơ bản, nó là thứ cho phép chúng ta thao túng tâm trí của mình. Chúng ta có một mô hình của thế giới hiện tại. Bạn biết đấy, nếu tôi đẩy chai này từ trên cao, nó có khả năng bị lật, nhưng nếu tôi đẩy nó từ phía dưới, nó sẽ trượt. Nếu tôi nhấn quá mạnh, nó có thể vỡ. Ảnh chụp màn hình phỏng vấn Yann LeCun Chúng ta có các mô hình của thế giới vật chất, mà chúng ta có được trong những tháng đầu tiên của cuộc đời, cho phép chúng ta đối phó với thế giới thực. Đối phó với thế giới thực khó khăn hơn nhiều so với đối phó với ngôn ngữ. Chúng ta cần một kiến trúc hệ thống thực sự có thể xử lý các hệ thống trong thế giới thực hoàn toàn khác với những gì chúng ta hiện đang xử lý. LLM dự đoán mã thông báo, nhưng mã thông báo có thể là bất cứ điều gì. Mẫu xe tự lái của chúng tôi sử dụng mã thông báo từ các cảm biến và tạo mã thông báo điều khiển xe. Theo một nghĩa nào đó, đó là lý luận về thế giới vật chất, ít nhất là về nơi an toàn để lái xe và nơi bạn không đâm vào cột. Bill Dally: Tại sao token không phải là cách đúng đắn để đại diện cho thế giới vật chất? Yann LeCun: Token là rời rạc. Khi chúng ta nói về mã thông báo, chúng ta thường có nghĩa là một tập hợp các khả năng hữu hạn. Trong một LLM điển hình, số lượng mã thông báo có thể là khoảng 100.000. Khi bạn đào tạo một hệ thống để dự đoán mã thông báo, bạn không bao giờ có thể đào tạo nó để dự đoán chính xác các mã thông báo sau trong một chuỗi văn bản. Bạn có thể tạo phân phối xác suất về tất cả các mã thông báo có thể có trong từ điển của mình, đây chỉ là một vectơ dài gồm 100.000 số giữa số 0 và một với tổng là một. Chúng tôi biết làm thế nào để làm điều đó, nhưng chúng tôi không biết phải làm gì với bộ phim, với dữ liệu hữu cơ liên tục, chiều cao đó. Mọi nỗ lực để có được một hệ thống hiểu thế giới hoặc xây dựng một mô hình tinh thần về thế giới, bằng cách đào tạo nó để dự đoán các bộ phim cấp độ pixel, phần lớn đã thất bại. Ngay cả việc đào tạo một hệ thống giống như một loại mạng thần kinh nào đó để học cách thể hiện tốt hình ảnh cũng thất bại bằng cách tái tạo lại hình ảnh từ phiên bản bị hỏng hoặc chuyển đổi. Chúng hoạt động một chút, nhưng không tốt như các kiến trúc thay thế mà chúng tôi gọi là nhúng chung, về cơ bản không cố gắng xây dựng lại ở cấp độ pixel. Họ cố gắng học một đại diện trừu tượng của một hình ảnh, phim hoặc tín hiệu tự nhiên đang được đào tạo để bạn có thể đưa ra dự đoán trong không gian biểu diễn trừu tượng đó. Yann LeCun: Ví dụ tôi sử dụng rất nhiều là nếu tôi quay video về căn phòng này, di chuyển máy ảnh và dừng lại ở đây, sau đó yêu cầu hệ thống dự đoán những gì tiếp theo trên bộ phim đó, nó có thể dự đoán rằng đây là một căn phòng có người ngồi trong đó và vân vân. Nó không thể dự đoán mỗi bạn sẽ trông như thế nào. Điều này hoàn toàn khó lường ngay từ những cảnh quay đầu tiên của bộ phim. Có rất nhiều thứ trên thế giới không thể đoán trước. Nếu bạn đào tạo một hệ thống để đưa ra dự đoán ở cấp độ pixel, nó sẽ dành tất cả các nguồn lực của mình để cố gắng tìm ra các chi tiết mà đơn giản là nó không thể phát minh ra. Đây là một sự lãng phí hoàn toàn tài nguyên. Mỗi khi chúng tôi cố gắng và tôi đã làm việc này trong 20 năm, việc sử dụng hệ thống đào tạo học tập tự giám sát bằng cách dự đoán video không hoạt động. Nó chỉ có giá trị nếu nó được thực hiện ở cấp độ trình bày. Điều này có nghĩa là những lược đồ đó không phải là thế hệ. Bill Dally: Nếu về cơ bản bạn nói máy biến áp không có khả năng đó, nhưng mọi người có máy biến áp tầm nhìn và nhận được kết quả tuyệt vời. Yann LeCun: Tôi không có ý đó, bởi vì bạn có thể sử dụng máy biến áp cho việc đó. Bạn có thể đặt máy biến áp trong các kiến trúc đó. Chỉ là loại kiến trúc mà tôi đang nói đến được gọi là kiến trúc dự đoán nhúng chung. Vì vậy, hãy lấy một bộ phim hoặc một hình ảnh hoặc bất cứ thứ gì, chạy nó qua bộ mã hóa, bạn sẽ có được một biểu diễn và sau đó lấy các phần tiếp theo của phiên bản được chuyển đổi của văn bản, phim hoặc hình ảnh đó và cũng chạy nó qua bộ mã hóa và bây giờ hãy thử đưa ra dự đoán trong không gian biểu diễn đó, không phải trong không gian đầu vào. Bạn có thể sử dụng cùng một phương pháp đào tạo, đó là điền vào chỗ trống, nhưng bạn làm điều đó trong không gian tiềm ẩn này chứ không phải trong biểu diễn ban đầu. Yann LeCun: Điều khó khăn là nếu bạn không cẩn thận và không sử dụng công nghệ thông minh, hệ thống sẽ bị sập. Nó bỏ qua đầu vào hoàn toàn, chỉ tạo ra một lượng thông tin đầu vào không đổi, không tồn tại.

Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
  • Phần thưởng
  • 1
  • Chia sẻ
Bình luận
0/400
Distangervip
· 04-19 06:55
không thể tránh khỏi làn sóng phát triển tiếp theo
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate.io
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)