Вы увидите, как фундаментальные модели для гуманоидов постоянно используют архитектуру в стиле Системы 2 + Системы 1, которая на самом деле вдохновлена человеческим познанием.



Большинство современных моделей визуально-языково-действенной (VLA) построены как централизованные мультимодальные системы, которые обрабатывают восприятие, язык и действия в рамках одной сети.

Инфраструктура Codec идеально подходит для этого, так как она рассматривает каждого Оператора как изолированный модуль. Это означает, что вы можете запускать несколько Операторов параллельно, каждый из которых выполняет свою собственную модель или задачу, при этом сохраняя их инкапсулированными и координированными через одну и ту же архитектуру.

Роботы и гуманоиды в целом обычно имеют несколько "мозгов", где один оператор может обрабатывать визуальную информацию, другой отвечает за баланс, третий занимается высокоуровневым планированием и т.д., что все может быть скоординировано через систему Codec.

Фундаментальная модель Nvidia Issac GR00T N1 использует архитектуру двух модулей System 2 + System 1. System 2 — это модель «визия-язык» (a версия PaLM или аналогичная, мультимодальная), которая наблюдает за миром через камеры робота и слушает инструкции, а затем составляет план высокого уровня.

Система 1 — это диффузионная трансформаторная политика, которая принимает этот план и превращает его в непрерывные движения в реальном времени. Вы можете рассматривать Систему 2 как обдумывающий мозг, а Систему 1 как инстинктивный контроллер тела. Система 2 может выдать что-то вроде «перейти к красному кубку, схватить его, а затем положить на полку», а Система 1 сгенерирует детализированные траектории суставов для ног и рук, чтобы выполнить каждый шаг плавно.

Система 1 была обучена на огромном объеме данных о траекториях (, включая демонстрации телеприсутствия человека и данные с физическим моделированием ), чтобы освоить тонкие движения, в то время как Система 2 была построена на трансформере с предварительным обучением в интернете ( для семантического понимания ).

Это разделение рассуждений и действий очень мощно для NVIDIA. Это означает, что GR00T может справляться с долгосрочными задачами, требующими планирования ( благодаря Системе 2), а также мгновенно реагировать на нарушения ( благодаря Системе 1).

Если робот несет поднос и кто-то толкает поднос, Система 1 может немедленно скорректировать баланс, а не ждать, пока более медленная Система 2 это заметит.

GR00T N1 был одной из первых открыто доступных моделей оснований робототехники, и он быстро приобрел популярность.

Из коробки он продемонстрировал навыки во множестве задач в симуляции, он мог захватывать и перемещать объекты одной рукой или двумя, передавать предметы из руки в руку и выполнять многоступенчатые задачи без программирования, специфичного для задач. Поскольку он не был привязан к единой форме, разработчики показали его работу на разных роботах с минимальными настройками.

Это также верно для базовой модели Helix (Figure, которая использует этот тип архитектуры. Helix позволяет двум роботам или нескольким навыкам работать одновременно, Codec может обеспечить многослойный мозг, запуская несколько Операторов, которые обмениваются информацией.

Этот дизайн "изолированного узла" означает, что каждый компонент может быть специализирован ), как система 1 по сравнению с системой 2( и даже разрабатываться разными командами, но они могут работать вместе.

Это уникальный подход в том смысле, что Codec строит глубокий программный стек для поддержки этой модульной, распределенной интеллектуальной системы, в то время как большинство других сосредоточены только на самом ИИ-модели.

Codec также использует большие предварительно обученные модели. Если вы разрабатываете приложение для робота на его основе, вы можете подключить модель OpenVLA или модель Pi Zero в качестве части вашего Оператора. Codec предоставляет соединители, легкий доступ к видеопотокам с камер или API для роботов, поэтому вам не нужно писать низкоуровневый код, чтобы получать изображения с камеры робота или отправлять команды скорости его моторам. Все это абстрагировано за высокоуровневым SDK.

Одна из причин, почему я так оптимистичен по поводу Codec, именно то, что я изложил выше. Они не гонятся за нарративами, архитектура построена так, чтобы быть связующим звеном между фундаментальными моделями, и она без трения поддерживает многомозговые системы, что критически важно для человеческой сложности.

Поскольку мы находимся на таком раннем этапе этой тенденции, стоит изучить дизайны лидеров отрасли и понять, почему они работают. Робототехника трудно воспринимается из-за слоев между аппаратным и программным обеспечением, но как только вы научитесь разбивать каждую секцию на части, это становится гораздо легче для усвоения.

Это может показаться пустой тратой времени сейчас, но это тот же метод, который дал мне преимущество во время сезона ИИ и почему я был ранен на так много проектов. Станьте дисциплинированными и узнайте, какие компоненты могут сосуществовать, а какие компоненты не масштабируются.

Это принесет дивиденды в течение следующих месяцев.

Дека триллионов ) $CODEC ( закодировано.
LL0.64%
VSN-3.61%
IN-8.01%
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить