НЕЙРОСЕТИ

Почему Stable Diffusion хочет открыть исходный код, распознающий эмоции?

Обновлено 22 января 2025 - 2 месяца назад. Techcrunch.com.

Double Horizontal frame

В 2019 году компания Amazon обновила своего помощника Alexa, добавив в него функцию, которая позволяет ему определять, когда клиент, скорее всего, расстроен, и реагировать на это с большим сочувствием. Например, если клиент попросил Alexa включить песню, а она поставила в очередь не ту, а затем клиент расстроенным тоном сказал "Нет, Alexa", Alexa может извиниться и попросить разъяснений.

Теперь группа, стоящая за одним из наборов данных, использованных для обучения модели преобразования текста в изображение Stable Diffusion, хочет предоставить подобные возможности распознавания эмоций каждому разработчику - причем бесплатно.

На этой неделе LAION, некоммерческая организация, создающая наборы изображений и текстовых данных для обучения генеративного ИИ, включая Stable Diffusion, объявила о проекте Open Empathic. По словам участников проекта, Open Empathic призван "оснастить системы ИИ с открытым исходным кодом эмпатией и эмоциональным интеллектом".

"Команда LAION, имеющая опыт работы в здравоохранении, образовании и исследованиях в области машинного обучения, увидела пробел в сообществе открытого кода: эмоциональный ИИ был в значительной степени упущен из виду", - сообщил Кристоф Шуманн, соучредитель LAION, TechCrunch по электронной почте. "Как и наши опасения по поводу непрозрачных монополий в области ИИ, которые привели к рождению LAION, мы почувствовали аналогичную актуальность и здесь".

В рамках проекта Open Empathic компания LAION набирает добровольцев для отправки аудиоклипов в базу данных, которая может быть использована для создания ИИ, включая чат-ботов и модели преобразования текста в речь, которые "понимают" человеческие эмоции.

"В Open Empathic наша цель - создать ИИ, который не будет понимать только слова", - добавил Шуманн. "Мы стремимся к тому, чтобы он улавливал нюансы в выражениях и смене тона, делая взаимодействие человека и ИИ более аутентичным и эмпатичным".

LAION, аббревиатура от "Large-scale Artificial Intelligence Open Network", была основана в начале 2021 года Шуманном, который в прошлом был учителем немецкой средней школы, и несколькими участниками сервера Discord для энтузиастов ИИ. Финансируемая за счет пожертвований и государственных грантов на исследования, в том числе от ИИ-стартапа Hugging Face и Stability AI, поставщика Stable Diffusion, LAION заявила о своей миссии - демократизировать ресурсы для исследований и разработок ИИ, начиная с учебных данных.

"Мы руководствуемся четкой миссией: использовать мощь искусственного интеллекта так, чтобы он приносил реальную пользу обществу", - сказал TechCrunch Кари Норий, автор открытого кода LAION и аспирант Борнмутского университета. "Мы страстно желаем прозрачности и считаем, что лучший способ формирования искусственного интеллекта - это открытое обсуждение".

Отсюда и открытая эмпатия.

На начальном этапе проекта LAION создал веб-сайт, на котором волонтерам предлагается аннотировать ролики на YouTube - одни заранее отобранные командой LAION, другие сделанные добровольцами - с выступлением отдельного человека. Для каждого ролика добровольцы могут заполнить подробный список полей, включая транскрипцию ролика, аудио- и видеоописание, а также возраст, пол, акцент (например, "британский английский"), уровень возбуждения (бдительности - не сексуальной, чтобы было понятно) и уровень валентности ("приятность" против "неприятности") человека в ролике.

Другие поля формы касаются качества звука ролика и наличия (или отсутствия) громких фоновых шумов. Но основное внимание уделяется эмоциям человека - или, по крайней мере, тем эмоциям, которые, по мнению добровольцев, он испытывает.

Из множества выпадающих меню добровольцы могут выбрать отдельные или несколько эмоций - от "щебетания", "оживления" и "умиления" до "размышления" и "вовлечения". Норий говорит, что идея заключалась в том, чтобы получить "богатые" и "эмоциональные" аннотации, фиксируя при этом выражения на разных языках и культурах.

"Мы стремимся обучить модели ИИ, которые смогут понимать самые разные языки и разбираться в различных культурных традициях", - говорит Норий. Мы работаем над созданием моделей, которые "понимают" языки и культуры, используя видеоролики с реальными эмоциями и выражениями".

После того как добровольцы отправят клип в базу данных LAION, они могут повторить процесс заново - количество клипов, которые может аннотировать один доброволец, не ограничено. LAION надеется собрать около 10 000 образцов в течение следующих нескольких месяцев, а к следующему году - по оптимистичным прогнозам - от 100 000 до 1 миллиона.

"У нас есть увлеченные члены сообщества, которые, руководствуясь идеей демократизации моделей ИИ и наборов данных, с готовностью предоставляют аннотации в свободное от работы время", - говорит Норий. "Их мотивация - это общая мечта о создании эмпатического и эмоционально интеллектуального ИИ с открытым исходным кодом, доступного для всех".

Подводные камни распознавания эмоций

Помимо попыток Amazon с Alexa, стартапы и технологические гиганты разрабатывают ИИ, способный распознавать эмоции - для самых разных целей, от обучения продажам до предотвращения аварий, вызванных сонливостью.

В 2016 году Apple приобрела Emotient, компанию из Сан-Диего, работающую над алгоритмами искусственного интеллекта, анализирующими выражение лица. В мае этого года шведская компания Smart Eye приобрела Affectiva - подразделение Массачусетского технологического института - и заявила, что ее технология способна распознать гнев или разочарование в речи за 1,2 секунды. А платформа распознавания речи Nuance, которую Microsoft приобрела в апреле 2021 года, продемонстрировала продукт для автомобилей, анализирующий эмоции водителя по его мимике.

Среди других игроков на рынке распознавания эмоций - Hume, HireVue и Realeyes, чьи технологии применяются для определения реакции определенных сегментов зрителей на рекламу. Некоторые работодатели используют технологию распознавания эмоций для оценки потенциальных сотрудников, оценивая их по уровню эмпатии и эмоционального интеллекта. Школы применяют ее для мониторинга вовлеченности учеников в учебный процесс - и дистанционно дома. ИИ, определяющий эмоции, используется правительствами для выявления "опасных людей" и тестируется на пограничном контроле в США, Венгрии, Латвии и Греции.

Команда LAION, в свою очередь, предполагает полезное и беспроблемное применение технологии в робототехнике, психологии, профессиональной подготовке, образовании и даже играх. Шуманн рисует картину роботов, предлагающих поддержку и дружеское общение, виртуальных помощников, которые чувствуют, когда человек чувствует себя одиноким или тревожным, и инструментов, помогающих диагностировать психологические расстройства.

Это техноутопия. Проблема в том, что большинство технологий распознавания эмоций находятся на зыбкой научной почве.

Универсальных маркеров эмоций практически не существует, что ставит под сомнение точность ИИ, определяющего эмоции. Большинство систем распознавания эмоций были созданы на основе работ психолога Пола Экмана, опубликованных в 70-х годах. Однако последующие исследования, в том числе и работы самого Экмана, подтверждают здравую мысль о том, что существуют значительные различия в том, как люди из разных слоев общества выражают свои чувства.

Например, выражение, якобы универсальное для страха, в Малайзии является стереотипом для угрозы или гнева. В одной из своих более поздних работ Экман предположил, что американские и японские студенты по-разному реагируют на фильмы с насилием, причем японские студенты принимают "совершенно другой набор выражений", если в комнате находится кто-то еще - особенно авторитетная фигура.

Голоса также охватывают широкий спектр характеристик, включая людей с ограниченными возможностями, такими заболеваниями, как аутизм, и тех, кто говорит на других языках и диалектах, таких как афроамериканский вернакулярный английский (AAVE). Носитель французского языка, проводящий опрос на английском, может сделать паузу или произнести слово с некоторой неуверенностью, что может быть неверно истолковано незнакомым человеком как маркер эмоций.

Действительно, большая часть проблемы с ИИ, определяющим эмоции, заключается в предвзятости - неявной и явной предвзятости, которую вносят аннотаторы, чьи материалы используются для обучения моделей, определяющих эмоции.

Например, в исследовании 2019 года ученые обнаружили, что те, кто наклеивает ярлыки, с большей вероятностью аннотируют фразы на AAVE как токсичные, чем их эквиваленты в американском английском. Сексуальная ориентация и гендерная идентичность также могут сильно влиять на то, какие слова и фразы аннотатор воспринимает как токсичные, равно как и откровенные предрассудки. Было обнаружено, что несколько широко используемых наборов данных изображений из открытых источников содержат расистские, сексистские и другие оскорбительные пометки от аннотаторов.

Последствия могут быть весьма значительными.

Было обнаружено, что Retorio, платформа для найма с искусственным интеллектом, по-разному реагирует на одного и того же кандидата в разных нарядах, например, в очках и косынке. В исследовании, проведенном в 2020 году в Массачусетском технологическом институте, ученые показали, что алгоритмы анализа лиц могут предвзято относиться к определенным выражениям лица, например улыбке, что снижает их точность. Более поздние работы показывают, что популярные инструменты эмоционального анализа склонны присваивать лицам чернокожих мужчин больше негативных эмоций, чем лицам белых.

Уважение к процессу

Как же команда LAION будет бороться с этими предубеждениями, следя за тем, чтобы, например, число белых людей в наборе данных не превышало число чернокожих; чтобы небинарным людям не присваивали неправильный пол; чтобы людям с расстройствами настроения не приписывали эмоции, которые они не собирались выражать?

Это не совсем ясно.

Шуманн утверждает, что процесс предоставления данных об обучении в Open Empathic не является "открытой дверью" и что в LAION существуют системы, "обеспечивающие целостность материалов".

"Мы можем подтвердить намерения пользователя и последовательно проверять качество аннотаций", - добавил он.

Однако предыдущие наборы данных LAION не отличались особой чистотой.

Некоторые анализы LAION ~400M - обучающего набора изображений LAION, который группа пыталась создать с помощью автоматизированных инструментов, - выявили фотографии, изображающие сексуальное насилие, изнасилование, символы ненависти и графическое насилие. LAION ~400M также изобилует предвзятостью, например, возвращает изображения мужчин, но не женщин для таких слов, как "генеральный директор", и изображения ближневосточных мужчин для слова "террорист".

В этот раз Шуманн доверился обществу, чтобы оно послужило проверкой.

"Мы верим в силу того, что ученые-хоббисты и энтузиасты со всего мира собираются вместе и вносят свой вклад в наши наборы данных", - сказал он. "Мы открыты и готовы к сотрудничеству, но при этом уделяем первостепенное внимание качеству и подлинности наших данных".

Что касается того, как будет использоваться любой ИИ для определения эмоций, обученный на наборе данных Open Empathic - предвзято или нет, - LAION намерена придерживаться философии открытого исходного кода, даже если это означает, что ИИ может быть использован не по назначению.

"Использование искусственного интеллекта для понимания эмоций - это мощное начинание, но оно не лишено трудностей", - сказал по электронной почте Роберт Качмарчик, соучредитель LAION и врач из Мюнхенского технического университета. "Как и любой другой инструмент, он может быть использован как во благо, так и во вред. Представьте, если бы только небольшая группа людей имела доступ к передовым технологиям, в то время как большая часть общества оставалась бы в неведении. Такой дисбаланс может привести к злоупотреблениям или даже манипуляциям со стороны тех немногих, кто имеет контроль над этой технологией".

Если речь идет об искусственном интеллекте, то беззаботные подходы иногда возвращаются, чтобы укусить создателей моделей - примером тому может служить использование Stable Diffusion для создания материалов о сексуальном насилии над детьми и неконсенсуальных глубоких подделок.

Некоторые защитники неприкосновенности частной жизни и прав человека, в том числе European Digital Rights и Access Now, призывают к полному запрету на распознавание эмоций. Закон ЕС об искусственном интеллекте, недавно принятый в Европейском союзе и устанавливающий рамки управления искусственным интеллектом, запрещает использование распознавания эмоций в полиции, на границе, на рабочих местах и в школах. А некоторые компании, например Microsoft, добровольно отказались от использования ИИ, распознающего эмоции, перед лицом общественного резонанса.

Однако LAION, похоже, спокойно относится к уровню риска и верит в открытый процесс разработки.

"Мы приветствуем исследователей, которые могут осмотреться, предложить изменения и заметить проблемы", - говорит Качмарчик. "И так же, как Википедия процветает благодаря вкладу сообщества, Open Empathic подпитывается участием сообщества, обеспечивая прозрачность и безопасность".

Прозрачный? Конечно. Безопасно? Время покажет.

Эта статья является экземпляром Текста-спринтера. Такие тексты отлично продвигают сайты в ТОП органического поиска Яндекс и Google. Здесь я пишу об этом более подробно.

Nikita Interactive, founder

Искренне Ваш,

Nikita Interactive

Это реальная история!

Раздел с Текстами-спринтерами привлек 18 090 пользователей за 9 месяцев.
На новом сайте. Без ссылок.

Измеримые результаты и устойчивый успех.