Распознавать эмоции можно тремя способами: по анализу слов, выражению лица и жестам, а также звукам речи. Однако слова и жесты люди склонны контролировать в большей степени, чем голос. Передавать настроение звуками для понимания друг друга предки людей научились намного раньше, чем говорить.
Чтобы проверить, насколько правдиво голосовой спектр отражает эмоции, ученые из МГУ им. М.В. Ломоносова совместно с российской компанией «Нейрокомм» несколько лет проводили комплексные исследования. Сначала они получили набор записей простых слов (да, нет), произнесенных с самыми разными интонациями. Затем других испытуемых (30 студентов) просили слушать и оценивать эмоции в этих записях. Каждый студент имел возможность несколько сот раз выразить своё мнение. Такое большое количество «оценщиков» понадобилось потому, что мнения людей по поводу разных эмоций могут расходиться. Ученым нужно было убедиться в том, что большинство экспертов видят в том или ином фрагменте записи именно «радость», а не «удивление». Чтобы разработать метод анализа звука, аудиозаписи кодировали особым образом. Были выделены те частоты, которые отражали переживания.
— Для создания программы мы использовали так называемую четырехмерную модель эмоций, — пояснил старший научный сотрудник кафедры психофизиологии МГУ им. М.В. Ломоносова Александр Вартанов. — Она представляет собой гиперсферу (сферу не в трехмерном, а в многомерном пространстве) с четырьмя осями. Каждая определяемая эмоция может попасть в какой-либо сегмент сферы, поделенной на составляющие: хорошо/плохо, удивление/узнавание, степень притяжения (к объекту) и агрессию/страх. В совокупности вектор (направление по оси) этих параметров характеризует каждое конкретное переживание. Обработанные аудиозаписи мы распределили по этой сфере, получив полную картину разнообразия эмоций.
Несмотря на то что эмоции были наигранными, они мало отличались от настоящих. Дело в том, что для произнесения слова с определенным выражением человек чаще всего имитирует то, что ему знакомо, — например, вспоминает момент, когда он был в ярости или, наоборот, влюблен и счастлив. Такие воспоминания буквально подстраивают организм под данное переживание, позволяя максимально точно воспроизвести его. Однако для подстраховки ученые использовали также образцы голосов, взятые из ток-шоу и документальных фильмов. Оставалось только научить программу распознавать те или иные особенности в частотах аудиозаписей, соответствующие конкретной эмоции.
— Чтобы создать необходимый софт, мы применяли технологию классического машинного обучения, подразумевающую обработку большого количества данных с помощью конкретного алгоритма, — рассказал генеральный директор компании «Нейрокомм» Саркис Григорян. — Для нашей цели она подходила наилучшим образом, так как позволяла обрабатывать данные значительно быстрее. Суть метода состоит в анализе голосового спектра с конкретной эмоцией и выделения определенных признаков. Далее именно по этим признакам программа будет искать нужный ей момент в голосовой записи и при необходимости создавать короткий аудиофайл, который передаст заказчику. Если проблема не требует сиюминутного решения, можно будет найти данный разговор в большой записи, чтобы разобраться в сложившейся ситуации. К настоящему моменту софт для поиска конкретных эмоций в разговоре готов к применению.
По словам разработчиков, такая программа пригодится, например, при обработке звонков колл-центров. Она поможет понять, как человек отнесся к тому или иному предложению, словам оператора, повороту в разговоре.
Кроме того, софт обеспечит безопасность в любой диспетчерской работе, следствием ошибки в которой может быть потеря человеческих жизней. Таким образом можно мониторить состояние операторов атомных станций, работников СИЗО и психиатрических учреждений, водителей такси, пилотов самолетов, военных. Ведь эмоциональное состояние влияет на когнитивные функции человека: возможность принимать правильные решения снижается, если он находится в состоянии гнева.
— Программа пригодилась бы при приеме сотрудников в полицию и иные органы госслужбы, — добавил глава Московского межрегионального профсоюза полиции и Росгвардии, долгое время работавший оперативником, Михаил Пашкин. — Задав провокационный вопрос, с помощью программы можно проверить реакцию человека, косвенно узнав его мнение по тому или иному поводу. Если в голосе кандидата, например, появляется агрессия, это повод насторожиться и провести углубленную проверку. Также потенциально интересно было бы применить разработку для проверки записей телефонных разговоров, однако не очень понятно, что делать с результатами этой проверки.
Что касается обеспечения безопасности и поиска потенциально опасных террористов и преступников, здесь применить данный софт трудно. Часто действия людей не коррелируют с их настроением, сообщил руководитель Центра правовой и психологической помощи в экстремальных ситуациях профессор Михаил Виноградов. Например, много и долго кричащий человек, проявляющий исключительно негативные эмоции, может быть очень далек от того, чтобы поднять на кого-то руку. А внешне спокойный — наоборот. Поэтому анализ эмоций в голосе не всегда способен предсказать действия человека.
На данный момент разработчики занимаются пилотными проектами по внедрению своей технологии для разных целей и ведут переговоры с потенциальными заказчиками.
Ольга Коленцова