Как Astra стала ответом Google на новый ChatGPT?

Обновлено 13 января 2025 - 2 месяца назад. Wired.com.

ChatGPT еще нет и двух лет, но идея общаться с искусственным интеллектом, набирая текст в окошке, уже начинает казаться причудливой.

Сегодня на конференции разработчиков Google I/O Демис Хассабис, возглавляющий усилия компании по восстановлению лидерства в области искусственного интеллекта, представил "помощника ИИ нового поколения" под названием Project Astra. В видеоролике он был показан в виде приложения на смартфоне, а также в виде прототипа умных очков. Новый концепт выполняет обещание, которое Хассабис дал о потенциале Gemini, когда модель была впервые представлена в декабре прошлого года.

Отвечая на голосовые команды, Astra смогла понять смысл объектов и сцен, увиденных через камеры устройств, и поговорить о них на естественном языке. Она идентифицировала компьютерную колонку и ответила на вопросы о ее компонентах, узнала район Лондона по виду из окна офиса, прочитала и проанализировала код с экрана компьютера, сочинила лимерик о карандашах и вспомнила, где человек оставил пару очков.

Это видение будущего ИИ поразительно похоже на то, которое в понедельник продемонстрировала компания OpenAI. OpenAI представила новый интерфейс для ChatGPT, который может быстро общаться с помощью голоса и рассказывать о том, что видно через камеру смартфона или на экране компьютера. Эта версия ChatGPT, созданная на основе новой модели ИИ под названием GPT-4o, также использует более человекоподобный голос и эмоционально выразительный тон, имитируя такие эмоции, как удивление и даже флирт.

В проекте Google Project Astra используется усовершенствованная версия Gemini Ultra, модели ИИ, разработанной для конкуренции с той, что работает в ChatGPT с марта 2023 года. Gemini- как и GPT-4o от OpenAI - "мультимодальная", то есть она обучалась на аудио, изображениях и видео, а также на тексте, и может в естественном режиме получать, перерабатывать и генерировать данные во всех этих форматах. Переход Google и OpenAI на эту технологию представляет собой новую эру в генеративном ИИ; прорывы, которые подарили миру ChatGPT и его конкуренты, до сих пор происходили с помощью моделей ИИ, которые работают исключительно с текстом и должны быть объединены с другими системами, чтобы добавить возможности работы с изображениями или аудио.

В интервью перед сегодняшним мероприятием Хассабис сказал, что, по его мнению, текстовые чат-боты окажутся лишь "переходным этапом" на пути к гораздо более сложным и, надеемся, полезным помощникам - искусственным интеллектам. "Это всегда было видением Gemini", - добавил Хассабис. "Именно поэтому мы сделали его мультимодальным".

Новые версии Gemini и ChatGPT, которые видят, слышат и говорят, являются впечатляющими демонстрационными образцами, но какое место они займут на рабочем месте или в личной жизни, пока неясно.

Пулкит Агравал, доцент Массачусетского технологического института, занимающийся вопросами ИИ и робототехники, говорит, что последние демонстрации Google и OpenAI впечатляют и показывают, как быстро развиваются мультимодальные модели ИИ. OpenAI запустила GPT-4V, систему, способную анализировать изображения, в сентябре 2023 года. Его впечатлило, что Gemini способна осмысливать живое видео - например, правильно интерпретировать изменения, внесенные в диаграмму на доске в режиме реального времени. Новая версия ChatGPT от OpenAI, похоже, способна на то же самое.

По словам Агравала, ассистенты, продемонстрированные Google и OpenAI, могут предоставить компаниям новые данные для обучения, поскольку пользователи взаимодействуют с моделями в реальном мире. "Но они должны быть полезными", - добавляет он. "Большой вопрос в том, для чего люди будут их использовать - пока не очень понятно".

По словам Google, Project Astra будет доступен через новый интерфейс под названием Gemini Live позднее в этом году. По словам Хассабиса, компания все еще тестирует несколько прототипов смарт-очков и пока не приняла решение о запуске в производство.

Возможности Astra могут дать Google шанс перезагрузить версию своих злополучных умных очков Glass, хотя попытки создать аппаратное обеспечение, подходящее для генеративного ИИ, до сих пор терпели неудачу. Несмотря на впечатляющие демонстрации OpenAI и Google, мультимодальные модули не могут полностью понять физический мир и объекты в нем, что накладывает ограничения на то, что они смогут делать.

"Способность строить мысленную модель окружающего физического мира абсолютно необходима для формирования более человеческого интеллекта", - говорит Бренден Лейк, доцент Нью-Йоркского университета, который использует ИИ для изучения человеческого интеллекта.

Лейк отмечает, что лучшие современные модели ИИ все еще ориентированы на язык, поскольку основная часть их обучения происходит на основе текстов, взятых из книг и Интернета. Это в корне отличается от того, как язык усваивается человеком, который приобретает его в процессе взаимодействия с физическим миром. "По сравнению с детским развитием это откат назад", - говорит он о процессе создания мультимодальных моделей.

Хассабис считает, что более глубокое понимание физического мира моделями ИИ станет ключом к дальнейшему прогрессу в области ИИ и сделает системы, подобные Project Astra, более надежными. По его словам, в этом могут помочь и другие направления ИИ, в том числе работа Google DeepMind над игровыми программами ИИ. Хассабис и другие надеются, что такая работа может стать революционной для робототехники - области, в которую Google также инвестирует.

"Мультимодальный универсальный агент-ассистент находится на пути к искусственному интеллекту общего назначения", - говорит Хассабис, имея в виду надежду на будущее, но в значительной степени неопределенный момент, когда машины смогут делать все, что угодно, и все, на что способен человеческий разум. "Это не AGI или что-то в этом роде, но это начало чего-то".

Эта статья является экземпляром Текста-спринтера. Такие тексты отлично продвигают сайты в ТОП органического поиска Яндекс и Google. Здесь я пишу об этом более подробно.