Робот-собака от Boston Dynamics теперь может играть в апорт

Опубликовано: 01 Ноя 2024 | Источник: IEEE Robotics and Automation Letters

ИИ

Собакоподобные роботы вскоре смогут выполнять сложные задачи, подобные игре в апорт, благодаря прорыву в области интеграции искусственного интеллекта (ИИ) и компьютерного зрения. Новое исследование, опубликованное 10 октября в журнале IEEE Robotics and Automation Letters, представляет метод под названием "Clio", обещающий революционизировать способность роботов взаимодействовать со сложными и динамичными средами. Ключевое отличие Clio от предыдущих разработок заключается в инновационном подходе к обработке визуальной информации, основанном на концепции "информационного узкого места" (information bottleneck).

В отличие от систем, которые пытаются обрабатывать всю поступающую с камер визуальную информацию, Clio использует нейронную сеть для оптимизированного отбора данных. Эта нейронная сеть, сложная структура алгоритмов машинного обучения, моделирует процессы обработки информации в человеческом мозге, выделяя лишь те детали, которые непосредственно релевантны текущей задаче робота. Представьте себе, что робот получает голосовую команду: "Принеси красный мяч". Вместо того, чтобы анализировать каждое пиксельное значение изображения, Clio с помощью "информационного узкого места" фильтрует все посторонние данные – мебель, людей, другие предметы – концентрируясь исключительно на объектах, соответствующих описанию "красный мяч". Эта избирательность существенно повышает эффективность обработки данных, снижает вычислительную нагрузку и ускоряет принятие решений роботом.

Работа "узкого места" основана на сжатии информации с сохранением ключевых характеристик целевого объекта. Алгоритм разбивает изображение на сегменты и присваивает им веса в зависимости от их значимости для выполнения задачи. Незначимые сегменты группируются и отбрасываются, позволяя нейронной сети сосредоточиться на критичных деталях. Например, если робот ищет зеленую книгу среди множества других книг, Clio выделит сегменты, соответствующие зеленому цвету и форме книги, игнорируя все остальное. Эта избирательность позволяет роботу эффективно ориентироваться в загроможденных средах и быстро выполнять задания, не растрачивая вычислительные ресурсы на ненужную информацию.

Соавтор исследования, Доминик Маджио, аспирант Массачусетского технологического института, подчеркивает эффективность такого подхода: "Мы пропускаем всю информацию через это узкое место и получаем кластер сегментов, представляющих зеленую книгу. Все нерелевантные сегменты группируются и удаляются. В результате робот получает достаточно детализированную информацию для выполнения своей задачи".

Однако Clio – это не просто эффективный алгоритм обработки изображений. Он также интегрирует систему понимания естественного языка, позволяя роботу интерпретировать словесные инструкции. Это значительно расширяет его возможности, позволяя давать роботу более сложные задачи, чем просто "возьми мяч". Робот может получать инструкции типа: "Найди и принеси ключи из коридора", "Положи книгу на полку" или даже "Помоги мне найти пропавший пульт от телевизора".