楊立昆：単にLLMに頼ってAGIを実現することは無駄話だ。AIの未来にはJEPA世界モデルが必要だ（GTC会議万字インタビュー）

2025-04-19 06:02:58

この記事は、MetaのチーフAIサイエンティストでチューリング賞受賞者のYann LeCun氏とNVIDIAのチーフサイエンティストであるBill Dally氏の公開会話の逐語録をまとめたものです。 LeCun氏は、大規模言語モデル(LLM) AGIを実際に実装できないと考える理由を説明している。 (あらすじ:OpenAIがo3とo4-miniをリリース最強の推論モデル:絵を考え、ツールを自動的に選択し、数学とコーディングのパフォーマンスを飛躍的に向上させることができる) (背景補足:OpenAIは独自の「独自のコミュニティプラットフォーム」を密かに作成し、MuskのXを指しています) 大規模言語モデル(LLM)が世界のAIの採用を加速させているとき、畳み込みニューラルネットワークの父として知られ、現在はMetaのチーフAIサイエンティストであるYann LeCun氏は、最近、驚くべきことに、LLMへの関心が薄れており、LLM開発のボトルネックに近いとさえ考えていると述べました。先月、NVIDIA のチーフサイエンティストである Bill Dally 氏との詳細な対談で、LeCun 氏は AI の将来の方向性に関する独自の洞察を詳しく説明し、物理世界、永続的な記憶、推論と計画能力、オープンソースエコシステムの重要性を理解することが、AI 革命の次の波をリードするための鍵であることを強調しました。 Bill Dally: Yannさん、この1年、AI分野では興味深いことがたくさんありました。この1年で最もエキサイティングな展開は何だったと思いますか? Yann LeCun: 数えきれないほどありますが、皆さんを驚かせるかもしれないことを1つお話ししましょう。私はもう大規模言語モデル(LLM)にはあまり興味がありません。 LLMはすでに末端にあり、業界の製品担当者の手に委ねられていますが、限界レベルで改善されており、より多くのデータ、より多くの計算能力、合成データの生成を試みています。機械に物理世界を理解させる方法、あまり語られていない永続的な記憶を持たせる方法、そして最後の2つは、機械に推論と計画をさせる方法の4つの領域で、より興味深い問題があると思います。もちろん、LLMに推論をさせる努力はありましたが、私の意見では、これは推論を見るのに非常に単純化された方法です。もっと良い方法があると思います。ですから、技術コミュニティの多くの人々が今から5年後までワクワクしないかもしれないことに、私はワクワクしています。しかし、今は、曖昧な学術論文であるため、あまり面白くありません。世界モデルと物理世界を理解する Bill Dally: しかし、LLMが物理世界について推論し、永続的な記憶を持ち、計画を立てていなかったらどうなるでしょうか? 基になるモデルは何ですか? ヤン・ルカン:つまり、多くの人が世界モデルに取り組んでいるということですね。ワールドモデルとは私たちは皆、頭の中に世界のモデルを持っています。それは基本的に、私たちが心を操作できるようにするものです。私たちには、現在の世界のモデルがあります。このボトルを上から押すと転倒しそうですが、下から押すと滑ります。強く押しすぎると破裂する恐れがあります。 Yann LeCun インタビューのスクリーンショット私たちには、人生の最初の数か月で獲得する物理的な世界のモデルがあり、現実の世界に対処することができます。現実世界に対処することは、言語に対処するよりもはるかに困難です。現在扱っているものとはまったく異なる現実世界のシステムを実際に処理できるシステムアーキテクチャが必要です。 LLMはトークンを予測しますが、トークンは何でもかまいません。当社の自動運転車モデルは、センサーからのトークンを使用し、車両を駆動するトークンを生成します。ある意味では、物理的な世界、少なくとも運転しても安全な場所と柱にぶつからない場所についての推論です。 Bill Dally: なぜトークンは物理的な世界を表すのに正しい方法ではないのですか? Yann LeCun: トークンは離散的です。トークンについて話すとき、私たちは通常、有限の可能性のセットを意味します。一般的なLLMでは、可能なトークンの数は約100,000です。トークンを予測するようにシステムに学習させる場合、テキストのシーケンスで正確に続くトークンを予測するように学習させることはできません。辞書で考えられるすべてのトークンに関する確率分布を生成できますが、これは 0 から 1 までの 100,000 個の数値の合計が 1 の長いベクトルです。その方法はわかっていても、高次元で連続した有機的なデータを使って、フィルムをどう扱えばいいのかわからないのです。ピクセルレベルの映画を予測するように訓練することで、システムに世界を理解させたり、世界のメンタルモデルを構築したりしようとする試みは、ほとんど失敗しています。ある種のニューラルネットワークに似たシステムをトレーニングして、画像の適切な表現を学習しても、破損または変換されたバージョンから画像を再構築するだけでは失敗します。多少は機能しますが、基本的にピクセルレベルで再構築を試みないジョイントエンベディングと呼ばれる代替アーキテクチャほどではありません。学習中の画像、動画、または自然信号の抽象的な表現を学習し、その抽象的な表現空間で予測を行おうとします。 Yann LeCun: 私がよく使う例は、この部屋のビデオを撮影し、カメラを動かしてここで停止し、その映画の次の展開をシステムに予測させると、この部屋に人が座っているなどと予測するかもしれません。あなた方一人一人がどのように見えるかを予測することはできません。これは、映画の最初の映像からはまったく予測できません。世の中には予測不可能なことがたくさんあります。ピクセルレベルで予測を行うようにシステムをトレーニングすると、単純に発明できない詳細を把握しようとしてすべてのリソースが費やされます。これは完全な資源の浪費です。 20年も前から取り組んでいるのですが、動画を予測して自己教師あり学習のトレーニングシステムを使ってもうまくいきません。これは、プレゼンテーションレベルで行われる場合にのみ有効です。つまり、これらのスキーマはジェネレーティブではありません。ビル・ダリー:基本的にトランスフォーマーにはその能力がないと言っているのなら、人々はビジョントランスフォーマーを持っていて、素晴らしい結果を得ています。 Yann LeCun: そんなつもりはなかったよ、変圧器を使えばいいんだから。これらのアーキテクチャにトランスフォーマーを配置できます。ただ、私が話しているようなアーキテクチャは、共同埋め込み予測アーキテクチャと呼ばれています。ですから、映画や画像などを取り、それをエンコーダーに通して表現を取得し、そのテキスト、映画、または画像の変換バージョンの後続の部分を取得し、エンコーダーに通して、入力空間ではなく、その表現空間で予測を行おうとします。空白を埋めるという同じトレーニング方法を使用できますが、元の表現ではなく、この潜在的なスペースで行います。 Yann LeCun: 難しいのは、注意を怠り、巧妙なテクノロジーを使わないと、システムがクラッシュしてしまうことです。入力を完全に無視し、一定量の存在しない入力情報のみを生成します。