Успех или провал систем автономного вождения зависит от одного вопроса:Что произойдет дальше?
Датчики сообщают автономному транспортному средству, как выглядит мир в данный момент — кадры с камер, облака точек лидара, радиолокационные отражения, измерения GPS и IMU. Но безопасное вождение — это предвидение: прогнозирование того, как могут двигаться пешеходы, перестроится ли велосипедист в поток, как автомобиль может выехать за линию разметки и что может показать перекрёсток, на котором ничего не видно.
Вот откуда берется идеямировая модельВ дело вступает модель мира. Модель мира — это обученное представление о том, «как устроен мир», которое можно моделировать во времени: имея текущую ситуацию и действие, она может генерировать правдоподобные будущие ситуации. В робототехнике и автономном управлении мечта состоит в том, чтобы иметь модель, которая могла бы достаточно хорошо имитировать реальность, чтобы обучать и проверять стратегии еще до того, как они появятся на дорогах общего пользования.
Сообщается, что Waymo используетДжинн 3Такой подход к созданию модели мира для вождения имеет большое значение — не потому, что он волшебным образом решает проблему автономного вождения, а потому, что он сигнализирует о сдвиге в том, что отрасль считает узким местом.
Автономное управление автомобилем сопряжено с двумя проблемами: восприятием и прогнозированием.
Первые дискуссии о беспилотных автомобилях были сосредоточены на восприятии: «Видит ли машина?» Это включает в себя обнаружение объектов, их классификацию, оценку их положения и скорости, а также отслеживание их во времени.
Сегодня передовые направления исследований все больше смещаются в сторону прогнозирования и планирования:
- Прогноз: прогнозирование будущих траекторий движения других агентов (автомобилей, велосипедов, пешеходов).
- Планирование: выбор собственной траектории движения транспортного средства таким образом, чтобы это было безопасно, законно и комфортно.
Ошибки восприятия по-прежнему важны, но даже идеальное восприятие не дает уверенности в намерениях. Пешеход на тротуаре может выйти за пределы полосы. Водитель может проехать на красный свет. Велосипедист может зашататься.
Цель модели мира — закодировать эти неопределенности, чтобы планировщик мог рассуждать о них.
Что такое «модель мира» в контексте машинного обучения?
В машинном обучении модель мира обычно представляет собой генеративную модель, обученную на больших объемах опыта. Она может:
- Представляют собой скрытое состояние окружающей среды.
- Спрогнозируйте, как будет развиваться ситуация в штате.
- Сгенерируйте наблюдения, соответствующие этой эволюции.
В случае вождения используются мультимодальные данные: изображения, лидар, карты и семантические метки.
Главная ценность заключается в том, что, пройдя обучение, вы сможетепример фьючерсови решения, требующие проверки на прочность. Вместо того чтобы спрашивать: «Каков единственный прогнозируемый путь?», вы спрашиваете: «Каковы правдоподобные пути, и какие из них опасны?»
Почему моделирование имеет центральное значение (и почему это так сложно)
Waymo и другие компании уже в значительной степени полагаются на моделирование. Проблема заключается в точности.
Традиционные симуляторы создаются из:
- Физические модели и динамика транспортных средств, разработанные вручную.
- Объекты сцены (дороги, здания, светофоры).
- Заученные наизусть «актеры», которые следуют правилам.
Эти правила отлично подходят для многих тестов, но реальность жестока: странное поведение пешеходов, необычное освещение, строительные зоны, редкие дорожные знаки, местные особенности вождения, нестандартные погодные условия, сбои датчиков и миллион тонких взаимодействий, которые никогда не проявляются в упорядоченном наборе правил.
Модель, основанная на обучении, привлекательна тем, что она может напрямую улавливать неструктурированные распределения данных. Если у вас достаточно реальных записей вождения, вы можете обучить модель генерировать сцены, которые «ощущаются» как дорога — включая все её особенности.
Но «реалистичности» недостаточно для обеспечения безопасности. Вождение — это противостояние: если ваша модель не распознает даже небольшой набор редких, но смертельно опасных сценариев, система все равно может дать сбой.
Что подразумевает подход в стиле Джинна?
Система в стиле «Джина» (как сообщается) подразумевает модель, способную генерировать правдоподобные сценарии будущего, обусловленные действиями и контекстом.
Если Waymo может создавать высококачественные «следующие кадры» для сложных городских сцен, то потенциально она может:
- Создаватьконтрфактические утверждения«А что, если бы мы сбавили скорость раньше?» «А что, если бы мы заняли левую позицию?»
- Увеличиватьосвещение редких событий: для обучения используется избыточная выборка нетипичных ситуаций.
- Улучшатьобучение с замкнутым контуром: обучать политику в рамках смоделированного мира, а не только на основе зарегистрированных данных.
Это шаг вперед по сравнению с «воспроизведением записанных логов». Это как переход от просмотра видеороликов о вождении к созданию песочницы, где сама песочница ведет себя как город.
Предупреждение: ошибки модели накапливаются.
Есть причина, по которой специалисты по безопасности с осторожностью относятся к симуляторам, основанным на обучении: небольшие ошибки накапливаются со временем.
Если модель мира немного неверна в отношении:
- Как пешеходы разгоняются.
- Как автомобили реагируют на торможение.
- Как ведут себя датчики в условиях бликов.
В результате смоделированный процесс развертывания может через несколько секунд отклониться от реальности. Это может привести к появлению обучающих сигналов, оптимизированных под особенности симулятора, а не под реальный мир — проблема, которую иногда называют...разрыв между симуляцией и реальностью.
Современные подходы позволяют смягчить эту проблему с помощью:
- Внедрение технологий на короткий срок в сочетании с реальными данными.
- Рандомизация домена (добавление шума и вариативности).
- Проверка на основе реальных сценариев, отложенных на потом.
- Ограничения безопасности, которые не основаны исключительно на полученных прогнозах.
Мировая модель может быть невероятно полезна, даже если она не является «идеальной реальностью», при условии, что вы знаете, в чем она надежна, а в чем нет.
Мировые модели и карты: структура, скрытая под пикселями.
Беспилотный автомобиль реагирует не только на изображения. Он также полагается на структуру:
- Карты высокого разрешения (геометрия полос движения, средства регулирования дорожного движения).
- Локализация (где я на карте?).
- Компоненты, подобные SLAM, в некоторых системах (особенно за пределами отображенных областей).
Надежная модель мира должна включать эту структуру. В противном случае она превратится в сложный генератор видео, не способный поддерживать согласованную геометрию.
Вот почему модели мира автономного воображения часто смешиваются:
- Изученные особенности восприятия,
- Явные геометрические ограничения,
- Карты априорных данных,
- Представления, основанные на действиях агентов (другие участники дорожного движения как сущности, обладающие намерениями).
Наилучшие системы — гибридные: они используют машинное обучение там, где много данных, и правила там, где действуют строгие ограничения.
Какие изменения произойдут в разработке продукта?
Наиболее практическое значение хорошей модели мира заключается в следующем:инженерная скорость.
Сегодня для улучшения системы автономного вождения часто требуется:
- Выявление реальных сбоев (отказы от участия, ситуации, близкие к провалу).
- Добавление данных и меток.
- Прогнозирование/планирование настройки.
- Повторная проверка в рамках обширных наборов сценариев.
Если модель мира может генерировать реалистичные варианты отказов, инженеры смогут быстрее проводить итерации. Она также может помочь ответить на такие вопросы, как:
- «Безопасно ли такое поведение в рамках всего распределения, или это была просто удача в одном конкретном случае?»
- «Насколько чувствительна система к нерешительности пешеходов?»
- «Каков наихудший сценарий развития событий, если другой водитель поведёт себя агрессивно?»
Более быстрая итерация не гарантирует безопасности, но может улучшить обратную связь.
Главные открытые вопросы
Даже если модель мира превосходна, существуют жесткие ограничения:
- ПодотчетностьМожете объяснить, почему система предсказала именно такое будущее?
- ПроверкаКак подтвердить, что обученный симулятор является репрезентативным?
- Крайние случаиКак вы обеспечиваете покрытие редких, но критически важных сценариев?
- устойчивость политики: Ведет ли себя в реальности политика, обученная на основе модели?
Здесь в дело вступают регулирующие органы и аргументы в пользу безопасности. Для автономных транспортных средств потребуются доводы, связывающие методы обучения и тестирования с реальными рисками.
Итог
Высокоточная модель окружающего мира — мощный инструмент для автономного вождения, поскольку она превращает принцип «учимся только на том, что произошло» в принцип «учимся на том, что может произойти». Если Waymo сможет использовать систему типа Genie 3 для генерации реалистичных дорожных сцен будущего, это может ускорить обучение, тестирование сценариев и оценку безопасности — но самая сложная задача по-прежнему заключается в доказательстве того, что смоделированный мир достаточно точен, чтобы улучшения переносились на реальные улицы.