ISSN 2079-6617
eISSN 2309-9828
Антропоморфный метод распознавания эмоций в звучащей речи

Антропоморфный метод распознавания эмоций в звучащей речи

Скачать в формате PDF

Поступила: 18.02.2013

Принята к публикации: 03.03.2013

Страницы: 69-79

DOI: 10.11621/npj.2013.0210

Ключевые слова: эмоции; речевой сигнал; антропоморфный метод

Для цитирования статьи:

Вартанов А.В. Антропоморфный метод распознавания эмоций в звучащей речи. // Национальный психологический журнал 2013. № 1. c.69-79. doi: 10.11621/npj.2013.0210

Скопировано в буфер обмена

Скопировать
Номер 1, 2013

Вартанов Александр Валентинович Московский государственный университет имени М.В. Ломоносова

Аннотация

Предложен новый эффективный метод автоматического распознавания эмоций по речевому сигналу, основанный на четырехмерной сферической модели эмоций и принципах кодирования информации в нервной системе. В результате разработан и экспериментально протестирован принцип относительного кросс-частотного амплитудно-вариабельного кодирования эмоций в речевом сигнале. Проверялась гипотеза о том, что речь является многоканальным (разнесенным по частотам) сигналом, в каждой полосе которого возможны независимые быстрые микро-изменения амплитуды. Показано соответствие выделенных параметров речевого сигнала и субъективного восприятия тех же образцов (коротких слов «да» и «нет») в системе формализованных параметров четырехмерной психофизиологической модели эмоций. Полученные параметры (факторы) можно охарактеризовать как бимодальные спектральные фильтры. Фактор 1 определяет изменение звукового сигнала по оси знака эмоций – чем больше вклад данного компонента по сравнению с другими, тем положительнее (лучше, полезнее) оценивается объект высказывания. Фактор 2 показывает степень информационной неопределенности ситуации – удивление в противоположность уверенности (спокойствию). Фактор 3 характеризует притяжение (любовь), при этом для набора слов «нет» он сопровождается отсутствием активного отвержения, а для набора «да» – положительной оценкой (знаком). Фактор 4 соответствует характеру отвержения, определяет, будет ли агрессивная (активная) или пассивная (страх, бегство) реакция. Полученные результаты в целом подтверждают продуктивность предлагаемого антропоморфного подхода к разработке технических систем, в частности, к методам обработки речевого сигнала и представления данных. Обнаруженное совпадение подтверждает и выделенные ранее параметры психофизиологической модели, дополнительно обосновывая предпочтительность (по сравнению с другими известными в литературе) именно такой системы классификации эмоций, как с точки зрения размерности, так и в отношении ориентации осей пространства модели.

Известно, что речь человека, нахо­дящегося в различных эмоциональ­ных состояниях, различается по цело­му ряду показателей. К числу наиболее информативных относят, прежде всего, характеристики просодической груп­пы, которые тонко отражают процессу­альную сторону устных высказываний и, в первую очередь, изменяются при ре­акциях аффективного плана (Златоусто­ва, 1957; Михайлов, Златоустова, 1987; Никишкян, 1987). Задача автоматиче­ского распознавания звучащей речи и, в частности, ее эмоциональной окрашенности является междисциплинар­ной и постоянно привлекает исследо­вателей разных специальностей – не только лингвистов, но и математиков, программистов, психологов, физиоло­гов. От ее решения зависит прогресс современных автоматизированных си­стем управления, реабилитации и протезирования, систем безопасности, сроч­ного оповещения и т.п. Решение этой задачи имеет большое научное значение для всех сфер фундаментальных иссле­дований человека и информационных технологий. В последние годы явно уси­лился интерес к анализу речевого сигна­ла, рассматриваемого в качестве наиболее удобного объективного показателя выражения эмоций, эмоционального состояния человека (Сидоров, Филатова, 2012). Это касается не только сфер дея­тельности с повышенной ответственно­стью – космонавтики, авиации (летчики, диспетчеры аэропорта), обслуживания АЭС и пр., которые изначально домини­ровали в этом отношении (Хроматиди, 2005; Соловьева, 2008; Chen, 2008; Siging, 2009; Фролов, Милованова, 2009; Роза­лиев, 2009; Калюжный, 2009; Перервенко, 2009; Morist, 2010), но широкой бы­товой сферы.

В интернете, новостных лентах и по­пулярных изданиях периодически появ­ляются сообщения о все более успешных попытках создания программ и бытовых устройств, реагирующих на эмоции в го­лосе человека. Например, «Ноосфера» сообщает, что «инженеры из Рочестер­ского университета (Великобритания) разработали программу, способную рас­познавать эмоции человека по его речи, даже не понимая смысла сказанного. Программа ориентируется на базу зву­козаписей, состоящую из календарных дат, произнесенных профессиональ­ными актерами с разными интонация­ми. Алгоритм анализирует 12 характер­ных параметров речи, таких как высота и громкость звука. На их основании он определяет одну из шести эмоций. По словам разработчиков, точность распознавания составляет 81 процент — зна­чительно лучше 55 процентов, которых удавалось добиться в предыдущих ана­логичных исследованиях. Авторы уже разработали первое коммерческое при­ложение – программу, отображающую на экране веселый или грустный смайлик в зависимости от результата анали­за записанного голоса. Это лишь первый этап. Авторы программы фантазируют, что в дальнейшем смартфоны смогут менять цветовую схему интерфейса или выбирать подходящую музыку в зависи­мости от настроения владельца» (Шпикуляк, 2012). На сайте Animal language отмечается, что, хотя изучение язы­ка эмоций точными научными метода­ми еще лишь начинается, но уже сейчас стало вырисовываться большое значение этой проблемы, как для теоретиче­ской науки, так и для практики (Animal language, 2013). При этом понятно, что решить эту задачу нельзя без знания ал­фавита акустического языка эмоций. Но, «чтобы заложить этот алфавит в элек­тронный мозг робота, необходимо фор­мализовать признаки, ответственные за эмоциональность голоса» (Animal language, 2013).

Однако, несмотря на множество ис­следований и коммерческих предло­жений в данной области, проблема автоматического распознавания эмо­ционального состояния говорящего по речи на данный момент не является пол­ностью решенной, в частности, отсутст­вует модель описания речевых образцов в условиях проявления разных видов эмоций (Сидоров, Филатова, 2012). Процесс интерпретации (распознавания) эмоций человека по естественной речи является весьма сложной задачей, как в области математической формализа­ции задачи, так и в плане поиска способов четкой конкретизации эмоци­онального состояния – однозначного детектирования эмоции по речевому сигналу. В настоящее время отсутству­ет универсальная теоретическая модель описания речевых образцов в условиях проявления разных видов эмоций (Фи­латова, Сидоров, 2012).

Это обусловлено целым комплексом взаимосвязанных проблем. С одной сто­роны, необходимо выделить в речевом сигнале те параметры, которые могли бы служить индикаторами эмоций. Здесь возникают проблемы их регистрации, математического анализа, поиска соот­ветствующих алгоритмов и технических средств. Для решения этой задачи требу­ется четко задать «входные» и «выходные» данные, формально представить требуе­мый результат. С другой стороны, необходимы формальные, объективные мето­ды для систематизации и классификации таких сложных явлений как эмоции че­ловека. Нужно разработать адекватную модель и собрать базу данных – набор соответствующих «образцов» состояний и корреспондирующих им фрагментов речи. Получается порочный круг: чтобы решить одну задачу, надо уже иметь ре­шение другой.

Тем не менее, научные исследова­ния и практические разработки в этом направлении предпринимаются со все большей интенсивностью, подстеги­ваемой коммерческими возможностя­ми. При этом, как правило, разработ­чики новых методов и инструментов анализа пользуются лишь собственным «здравым смыслом» и некоторыми тео­ретическими обобщениями психологов и фонологов. А последним для анали­за эмоциональных явлений приходится пользоваться «стандартными», общедо­ступными инструментами объективного анализа речевых сигналов. Чтобы хоть как-то приблизиться к достижению пра­ктической эффективности, всем прихо­дится упрощать задачу – при разработке новых методов анализа речевого сигнала ограничиваться отдельными аспек­тами эмоциональных феноменов, на­пример, только интерпретацией знака эмоций (Филатова, Сидоров, 2012) или отдельных эмоций, наиболее важных для данной области применения. В ито­ге общая эффективность предлагаемых в настоящий момент средств невысока. Приведенный выше пример из «Ноос­феры» наглядно это подтверждает: даже при решении задачи по распознаванию всего шести эмоций, результат сводится к примитивному бинарному действию. А метод в типичном случае базируется на стандартных алгоритмах сопоставле­ния с образцом в расчете на простое ко­личественное увеличение быстродейст­вия и объема памяти (например, за счет «облачных» технологий) и размера «сло­варя» образцов.

О параметрах речевого сигнала

Литературный обзор, проведенный К.В. Сидоровым и Н.Н Филатовой, по­казывает, что на современном этапе можно выделить четыре группы объек­тивных признаков и соответствующих методов, позволяющих различать рече­вые образцы: спектрально-временные, кепстральные, амплитудно-частотные и признаки на основе нелинейной дина­мики. (Сидоров, Филатова, 2012). Пока­зано, что, основываясь только на одних простых спектральных характеристи­ках звукового сигнала, невозможно пра­вильно распознавать и идентифициро­вать различные эмоции (Сидоров, 2011).

Спектрально-временные признаки отражают своеобразие формы времен­ного ряда, спектра голосовых импуль­сов у разных лиц и специфику филь­трующих функций их речевых трактов. Они характеризуют особенности рече­вого потока, связанные с динамикой пе­рестройки артикуляционных органов речи говорящего, и являются интеграль­ными характеристиками речевого по­тока, демонстрирующими своеобразие взаимосвязи или синхронности движе­ния артикуляторных органов говоря­щего. Амплитудно-частотные признаки также несут важную информацию. Боль­шинство исследований в качестве на­иболее информативных акустических коррелятов эмоциональных и функцио­нальных состояний рассматривают ряд частотных, временных и мощностных характеристик голосового сигнала (Ада­шинская, Чернов, 2007). Как правило, стенические состояния ведут к возра­станию, а астенические – к понижению показателей основного тона, форман­та и интенсивности. Обнаружена взаи­мосвязь акустических параметров речи, эмоциональных и функциональных со­стояний, обусловленная индивидуаль­ными особенностями говорящих, что выражается в разнонаправленности из­менений ряда временных и мощност­ных параметров речи (Адашинская, Чер­нов, 2007). Однако применение этих признаков не позволяет в полной мере использовать их в качестве инструмен­та идентификации эмоционально окра­шенной речи (Сидоров, 2011).

В группе спектрально-временных признаков были выделены параметры, инвариантные к действию повышенного уровня сигнала, описывающие статисти­ческие характеристики речевого сигна­ла и основного тона, особенности спек­тральной структуры (Розалиев, 2009). Группа признаков эмоционально окра­шенной речи по кепстральным коэффи­циентам позволяет отделить сигнал воз­буждения от сигнала речевого тракта. Мел-частотные кепстральные коэффи­циенты широко используются в качест­ве набора признаков речевого сигнала, поскольку они учитывают психоакусти­ческие принципы восприятия речи и мел-шкалу, связанную с критическими полосами слуха (Siging, 2010; Сидоров, Филатова, 2012). Для группы признаков нелинейной динамики речевой сигнал рассматривается как скалярная величи­на, наблюдаемая в системе голосового тракта человека (Старченко и др., 2010). В настоящее время методы нелинейной динамики и нелинейной авторегрессии позволяют восстанавливать фазовый портрет аттрактора по временному ряду или по одной его координате. Экспери­ментально подтверждено, что выявленные отличия в форме аттракторов мож­но использовать для диагностических правил и признаков, позволяющих рас­познать и правильно идентифицировать различные эмоции в эмоционально окра­шенном речевом сигнале. Так, К.В. Сидо­ров и Н.Н Филатова предложили модель интерпретации знака эмоции по пра­вилу объединения нечетких множеств, характеризующих значения Rmax – усредненного максимального вектора реконструкции аттрактора по четырем квадрантам (Филатова, Сидоров, 2012). В работе Р.Ю. Романенко рассмотрена возможность применения вейвлет-анализа речевого сигнала с целью использования в системе распознавания речи (Романен­ко, 2010). Предлагается также проводить классификацию эмоционально окрашен­ной речи с использованием метода опор­ных векторов (Хейдоров, 2008). Как от­мечалось около десяти лет назад, аппарат акустического анализа речи уже доста­точно развит (Бабин, Мазуренко, Холоденко, 2004). Практически все наиболее часто используемые способы расчета акустических параметров речевого сиг­нала реализованы в известных и общедоступных математических компьютер­ных пакетах обработки сигналов (Бабин, Мазуренко, Холоденко, 2004), например, в пакетах SPL и IPPS фирмы Intel (Intel Developer Centers, 2013).

Таким образом, речь, порождаемая человеком, находящимся в различных эмоциональных состояниях, характери­зуется целым рядом показателей, в том числе таких, которые могут отражать процессуальную сторону устных выска­зываний. Однако, формальные крите­рии, хотя и позволяющие успешно дифференцировать отдельные эмоции по речевым образцам, не могут дать общей картины изменения текущего состоя­ния и отношения человека, поскольку не разработана антропоморфная система классификации эмоциональных прояв­лений в звучащей речи. Отправной точ­кой решения вышеописанной проблемы должна стать система, достаточно пол­но моделирующая процесс восприятия эмоций человеком, которая учитывает совокупность разных аспектов их про­явления, в том числе, в речи. Многомер­ность эмоций, их проявление на различных уровнях отражения и деятельности, способность к слиянию и образованию сочетаний исключают возможность их простой линейной классификации (Ви­люнас, 1984) или создания конечного дискретного набора определенных ва­риантов. Обычно выделяют как минимум десять типов эмоциональных отношений или так называемых фундаментальных эмоций, между которыми, однако, воз­можны плавные переходы.

Эти типы в достаточной мере услов­ны, обозначая (в виде понятийных ка­тегорий) лишь наиболее важные места эмоционального континуума. Поэто­му в разное время на основе различных экспериментальных методов и эмпи­рических фактов делались попытки выделить в этом разнообразии ограни­ченное число базовых факторов или ос­новных «компонентов эмоционального качества», которые бы выступали по отношению к отдельным эмоциональ­ным переживаниям как родовые исход­ные характеристики или «образующие». В настоящее время известен целый ряд таких независимых или частично пере­крывающихся признаков и оснований для деления эмоциональных явлений. Это объясняется тем, что эмоции прояв­ляются одновременно и во внутренних переживаниях, и в поведении, причем, и то, и другое обусловлено еще специфической физиологической актива­цией. При этом аппарат анализа ре­чевого сигнала также должен, хотя бы в некоторой степени, воспроизводить процессы, позволяющие нервной системе человека правильно распознавать всю гамму эмоций, т.е. необходима ан­тропоморфная модель эмоций.

Четырехмерная сферическая модель эмоций

Несмотря на всю сложность про­блемы, предпринятое ранее исследо­вание эмоциональных характеристик звучащего слова и семантики эмоций позволили построить универсальную четырехмерную сферическую модель эмоций (Виденеева, Хлудова, Вартанов, 2000; Вартанов, Виденеева, 2001; Варта­нов, Вартанова, 2003; Вартанов, Варта­нова, 2005). Эта модель объективирует и формализует в системе четырех количественных параметров все многоо­бразие переживаний и различные про­явления эмоций в речи, мимике, а также в семантике.

Построение модели проводилось экспериментально с помощью много­мерного шкалирования субъективных различий между эмоциональными со­стояниями, задаваемыми специально созданными образцами. Чтобы уровнять и сделать определенным содержание этих образцов, в эксперименте исполь­зовалось одно и то же слово, произне­сенное в разных эмоциональных состояниях. В одной серии использовалось слово «да», а в другой – «нет». Уже такие короткие одноударные слова, как сви­детельствует практика актерского ма­стерства (Станиславский, 1959), впол­не могут адекватно и полно отражать весь спектр эмоциональных проявле­ний. Эти слова, по сравнению с други­ми, несут более определенное и незави­сящее от контекста значение, но, в то же время, они более нейтральны и допуска­ют больше вариантов эмоциональной окраски при их произнесении. Из боль­шого числа образцов, наигранных про­фессиональными актерами и «подлов­ленных» в естественных условиях, было отобрано для каждого набора по 20 на­иболее удачных, отражающих10 типичных эмоций, наиболее существенных для актерского исполнения (Станислав­ский, 1959). Наличие двух наборов таких образцов (противоположных по семан­тике) позволяет найти универсальные, независимые от конкретного слова па­раметры, определяющие именно прояв­ление эмоций в речи.

В эксперименте регистрировались субъективные оценки степени попар­ного различия между звуковыми стиму­лами. Набор из 20 образцов в каждой из серий образовывал по 190 вариан­тов пар. Каждая пара предъявлялась не менее чем по 3 раза, т.е. всего 570 пар, которые следовали в случайном поряд­ке. В экспериментах участвовало в об­щей сложности 25 взрослых испытуе­мых и 30 детей разных возрастов (с 1-го по 8-й классы). Кроме того, тем же мето­дом исследовалась и семантика эмоций русского языка, для чего использовались различные наборы слов, обозначающих эмоции. Обнаружено, что и дети, и все взрослые одинаково успешно воспринимают и непосредственно сравнива­ют эмоциональные состояния другого, выраженные в интонациях речи – полу­ченные матрицы всех испытуемых хо­рошо совпадали (коррелировали) друг с другом, что позволило далее объеди­нить все данные и уменьшить случай­ный шум получаемых оценок, образую­щих матрицу различий.

Анализ (метрическим методом) мно­гомерного шкалирования усредненных матриц различий в соответствующих сериях показал, что размерность полу­ченного эмоционального пространст­ва по всем критериям должна быть оце­нена как равная четырем. Расположение точек-стимулов в четырехмерном пространстве проверялось на сферичность. Оказалось, что в серии «да» вариативность радиуса четырехмерной сферы составляла всего 9,71%, а в серии «нет» – 9,94%. Это хорошо согласуется с теоретическими разработками о принципах кодирования в нервной системе (Соко­лов, Вайткявичюс, 1989; Соколов, 2001; Вартанов, 2011), на основе которых мо­жет быть построена антропоморфная нейротропная модель эмоций.

После вращения евклидовы оси про­странства получили интерпретацию как определенные нейронные (мозговые) механизмы эмоций, а угловые характе­ристики – как субъективные качества эмоций. Первые две евклидовы оси про­странства связаны с оценкой ситуации: ось 1 – по знаку (хорошо, полезно, при­ятно или плохо, вредно, неприятно), ось 2 – по степени информационной опре­деленности (уверенность – удивление). Система третьей и четвертой осей связа­на с побуждением: ось 3 – притяжение, ось 4 – отвержение (оборонительная ре­акция), активное (агрессия) или пассив­ное (страх, затаивание) избегание. Это хорошо согласуется с известными моз­говыми механизмами эмоций (Симонов, 1981; 2001). Так, ось 3 и положительное направление оси 1 (вроде бы сход­ные качества) отражают работу разных групп нейронов гипоталамуса – побу­дительных и подкрепляющих, которые хотя и определяют, казалось бы, одни и те же положительные эмоциональные состояния, но находятся между собой в конкурентных отношениях (что проявляется в ортогональности осей моде­ли). Ось 2 и отрицательное направление оси 1 можно связать с работой гиппо­кампа (активизирующегося в условиях информационной неопределенности) и фронтальной коры (дорсальной ее части), а также с миндалины лимбиче­ской системой – вентральной части префронтальной коры. В целом префронтальная кора, являясь, как и гиппокамп, «информационной» структурой мозга, ориентирует поведение на сигналы вы­соковероятных событий. Ось 4, которая делит активные и пассивные оборони­тельные реакции, по-видимому, также описывает активность медиального гипоталамуса, точнее двух его структур, стимуляция которых вызывает оборо­нительные реакции нападения (положи­тельное направление оси 4) или бегства, соответственно (отрицательное направ­ление оси 4).

Оказалось, что три угла четырехмер­ной гиперсферы, выбранные в проекции осей 1-2, 3-4 и угол, образуемый движе­нием точки между двумя этими плоско­стями, задают такие субъективно переживаемые качества эмоций, которые описывал еще В. Вундт (Вундт, 1984). Это три качества: 1) эмоциональный тон (удовольствие – неудовольствие), 2) воз­буждение – успокоение – угнетение, 3) напряжение – разрешение. При этом первый и второй углы упорядочивают все 10 основных эмоций по модально­сти: 5 эмоций, определяемых ситуацией и 5, определяемых собственной актив­ностью. Но оказалось также, что при выборе другой системы угловых параметров – если взять три угла в системе осей 4-1, 3-2 и угол, образуемый движением точки между этими плоскостями, обнаруживается другая система класси­фикации эмоций, описываемая при ис­следовании выражений лица – круго­вая система Х. Шлосберга ([Schlosberg, 1941) и сферическая модель Ч.А. Из­майлова (Измайлов, Коршунова, Соко­лов, 1999), а также семантика Ч. Осгуд (Osgood, Suci, Tannenbaum, 1957). Она включает: 1) эмоциональный тон или знак (упорядочивает 6 основных эмо­ций по модальности), 2) активность или яркость эмоций (возбуждение – покой) и 3) эмоциональная насыщен­ность (сила проявления эмоций).

Таким образом, полученные данные показывают, что звучащая речь вполне определенно и достаточно точно выра­жает эмоциональное состояние гово­рящего, хорошо корреспондируя с дру­гими важными для человека каналами: зрительным восприятием (по мимике и выразительным движениям), ощуще­нием своего собственного состояния в самонаблюдении. Она также закрепле­на в языковых терминах (общественный опыт обозначения эмоций в социаль­ном канале коммуникации). Предлагае­мая четырехмерная сферическая модель может служить общей классификацион­ной системой для эмоциональных явле­ний, объединяя, как физиологические представления о мозговых механизмах эмоциональной регуляции, так и из­вестные психологические классифика­ции, полученные на основе разных эк­спериментальных данных. Она также количественно объясняет все возмож­ные нюансы и плавные взаимопереходы эмоций, представляя каждую конкрет­ную эмоцию как линейную комбина­цию выделенных основных психофизи­ологических параметров. По-видимому, у человека и животных существует специальный механизм эмоционального или чувственного отражения, необхо­димый для регуляции поведения и ори­ентировки в ситуации, работа которо­го может быть формально представлена в виде вышеописанной четырехмерной сферической модели. Наличие едино­го механизма во всех процессах позво­ляет представить все эмоциональные явления в одной и той же системе параметров. В результате данная модель, являясь антропоморфной (поскольку отражает субъективное отношение че­ловека) и нейротропной (поскольку от­ражает нейронные механизмы), позволяет количественно описать и наглядно представить изменения текущего состо­яния человека или его эмоционального отношения. Она может стать базисом при конструировании устройства, кото­рое в удобной форме представляет де­тектируемые по звучащей речи эмоцио­нальные состояния человека.

Результаты выявления параметров речевого сигнала в соответствии с предлагаемой антропоморфной моделью

В качестве исходного материала для выявления параметров речевого сигна­ла, которые должны воспроизводить па­раметры вышеописанной сферической модели эмоций, были использованы те же образцы звуковых фрагментов, что и в эксперименте с субъективными оценками. Это – 20 образцов слова «да» и 20 образцов слова «нет» (средняя дли­тельность 0,60 сек, стандартное отклоне­ние 0,19 сек; минимальная длительность 0,3 сек, максимальная 0,98 сек; запись в полосе до 8000 Гц). После исследования возможных параметров, наиболее полно представляющих свойства данно­го набора образцов, было обнаружено, что наилучшим образом поставленной задаче соответствует показатель, вычи­сляемый по следующему алгоритму:

  1. Для звукового фрагмента с помощью стандартных средств – быстрое пре­образование Фурье со сглаживанием в минимальном скользящем окне по­рядка 10-15 мс вычисляется последовательностью мгновенных спектров мощности сигнала (в диапазон от 0 до 4000 Гц с шагом 50 Гц).

  2. На основе последовательности мгно­венных спектров в скользящем окне (исследовались окна порядка 50-200 мс) вычисляется показатель микро-ва­риативности (стандартное отклоне­ние) амплитуды (квадратного корня от мощности) на каждой частоте.

  3. Для вычисления интегральной оценки всего звукового образца использова­лось простое усреднение предыдущего показателя по всему интервалу звучания и получения одного вектора (по часто­те) для каждого звукового образца.

Такой алгоритм был выбран на ос­нове теоретических предположений об общих принципах кодирования информации в нервной системе (Варта­нов, 2011). Дополнительным основа­нием послужили наблюдения, впервые сделанные еще Ч. Дарвином о том, что эмоциональную выразительность голо­су придает именно определенное «дро­жание» тембра, что особенно важно для выразительности пения (Дарвин, 1940). Как отмечалось многими авторами, из­менения громкости речи в макро-вари­анте на протяжении всего высказывания также может характеризовать эмоцио­нальное отношение говорящего. Однако и быстрые микро-изменения амплитуды (в пределах короткого слова или междо­метия) также могут служить мерой изме­нения эмоционального состояния или отношения человека. При этом, для того, чтобы было возможно передать всю гам­му эмоций, как показано выше, недоста­точно только одного параметра, поэтому проверялась гипотеза о том, что речь – это многоканальный (разнесенный по частотам) сигнал, в каждой полосе ко­торого возможны независимые быстрые микро-изменения амплитуды. То есть, основное предположение свелось к про­верке относительного кросс частотного амплитудно-вариабельного кодирования эмоций в речевом сигнале.

Все полученные звуковые образцы (40 записей разной длины) были обра­ботаны с помощью специально создан­ных программных средств, а усреднен­ные значения предлагаемого параметра в исследованном частотном диапазо­не (с шагом 50 Гц) были собраны в еди­ный массив данных, который далее под­вергся статистическому (факторному) анализу. Вращение и интерпретация полученных факторов проводились с помощью специально разработанных средств на основе сопоставления с из­вестными для данных образцов (набо­ров слов «да» и «нет») оценками в четырехмерной модели эмоций.

В результате факторный анализ по­зволил оценить размерность и выявить 4 фактора (рис. 1), которые совокупно опи­сывают 70,15% всей дисперсии данных.


Рис. 1. График распределения собственных значений при факторном анализе всего набора звуковых образцов, включая слова «да» и «нет» (всего 40 образцов). Стрелками отмечена граница, в со­ответствии с которой можно оценить размерность факторного пространства как равную четырем.

После специального вращения в про­странстве модели эмоций для дости­жения наилучшего соответствия между нормированными значениями факто­ров и координатами образцов факто­ры получили спектральное выражение, показанное на рис. 2. Решение, полу­ченное таким методом вращения, не сильно отличалось от решения, получен­ного методом варимакс с нормализацией. В результате полученные факторы мож­но охарактеризовать как бимодаль­ные спектральные фильтры. Фактор 1 имеет основной максимум в области 3000 Гц и вспомогательный – 500 Гц. Фактор 2 имеет два близких максиму­ма на частотах 1000 и 1750 Гц. Фактор 3 имеет самые широко разнесенные мак­симумы – в низкочастотной области (около 150 Гц) и высокочастотной об­ласти (3500 Гц). Фактор 4 имеет близкие максимумы на 600 и 1500 Гц и близок к фактору 2, но сдвинут относительно него в низкочастотную область, попа­дая своими максимумами в его локаль­ные минимумы.


Рис. 2. Спектральные характеристики четырех выделенных факторов, которые описывают эмоциональные качества всех речевых образцов в совокупности. Горизонтальная ось дана в логарифмическом масштабе.В результате вычисления значения этих факторов и их нормализации (как этого требует теория кодирования и сферичность пространства психофизиологической модели) было проведено сопоставление оценок, полученных путем формального анализа звукового сигнала и субъективных оценок, в соответствии с моделью эмоций. Вычисленные коэффициенты корреляции для каждого набора в отдельности (слова «да» и «нет») и совместно представлены в таблицах 1-3.

x1

x2

x3

x4

Factor 1

0.42

-0.36

0.13

-0.08

Factor 2

-0.36

0.59

0.11

-0.17

Factor 3

0.11

0.11

0.65

-0.30

Factor 4

-0.10

-0.15

-0.27

0.63

Таблица 1. Коэффициенты корреляции Пирсона между параметрами модели эмоций (х1- х4) и параметрами речевого сигнала (факто- рами). Жирным курсивом показаны значимые (p < .05 при N=40) коэффициенты.

x1

x2

x3

x4

Factor 1

0.57

-0.24

0.35

-0.22

Factor 2

-0.14

0.28

0.78

-0.51

Factor 3

0.53

0.07

0.50

0.04

Factor 4

-0.03

-0.41

-0.57

0.72

Таблица 2. Коэффициенты корреляции Пирсона для набора «да» между параметрами модели эмоций (х1-х4) и параметрами речевого сигнала (факторами). Жирным курсивом показаны значимые (p < .05 при N=20) коэффициенты.

x1

x2

x3

x4

Factor 1

0.15

-0.46

-0.23

0.15

Factor 2

-0.50

0.55

-0.14

-0.43

Factor 3

-0.31

0.41

0.79

-0.58

Factor 4

-0.05

-0.22

0.12

0.55

Таблица 3. Коэффициенты корреляции Пирсона для набора «нет» между параметрами модели эмоций (х1-х4) и параметрами речевого сигнала (факторами). Жирным курсивом показаны значимые (p < .05 при N=20) коэффициенты.

При анализе этих данных необходи­мо учесть, что, хотя и выделенные фак­торы и параметры (оси) модели эмоций ортогональны, тем не менее, исследу­емые образцы не заполняют все пространство равномерно и существенно различаются для наборов «да» и «нет». Поэтому сами координаты образцов в модели в некоторой степени коррели­руют между собой (таблица 4). Похожая корреляция по той же причине наблюдается и между значениями факторов, что понятно, если система голосовых параметров (выделенных факторов) и система психофизиологических пара­метров модели близки.

x1

x2

x3

x4

x1

1.00

-0.22

0.07

-0.03

x2

-0.22

1.00

0.34

-0.30

x3

0.07

0.34

1.00

-0.44

x4

-0.03

-0.30

-0.44

1.00

Таблица 4. Коэффициенты корреляции Пирсона между параметрами модели эмоций (х1- х4). Жирным курсивом показаны значимые (p < .05 при N=40) коэффициенты.

Корреляционные поля для выделен­ных факторов представлены на рис. 3.





Рис. 3. Корреляционные поля соответствия выделенных параметров речевого сигнала и психофизиологической модели. Кружками обозначены образцы «да», а квадратиками – «нет».

На основании этих данных можно за­ключить, что в целом первые четыре спектральных параметра значимо кор­релируют с параметрами психофизио­логической модели. При этом наблюда­ется определенное своеобразие связей в зависимости от набора образцов, что позволяет предположить, что семанти­ческое значение слова («да» или «нет») в некоторой степени определяет и на­правление изменения данных параметров голоса. Тем не менее, можно заключить, что первый фактор определяет изменение звукового сигнала по оси зна­ка эмоций – чем больше вклад данного компонента по сравнению с другими, тем положительнее (лучше, полезнее) оцени­вается объект высказывания.

Это более справедливо для утвержде­ний в наборе «да». Второй спектральный параметр в целом и в наборе «нет» опре­деляет степень информационной нео­пределенности ситуации – удивление в противоположность уверенности (спокойствию). При этом для слов «да» это удивление сопровождается также еще влечением, а «не отвержением», т.е. характеризует любопытство в случае со­гласия или чистое удивление в случае отрицания. Третий компонент в целом и во всех наборах в отдельности ха­рактеризует притяжение (любовь), при этом, для набора «нет» он сопровожда­ется отсутствием активного отвержения, а для набора «да» – положительной оценкой (знаком). Четвертый компо­нент соответствует, как в целом, так и для обоих наборов по отдельности, степени и характеру отвержения. Он определяет: будет ли реакция агрессив­ная (активная) или пассивная (страх, бегство). При этом в наборе «да» он ха­рактеризуется еще «не притяжением».

Заключение

Проведенный анализ и полученные в результате параметры звукового сигнала позволяют построить эффективный ан­тропоморфный (и по процессу, и по ре­зультату) метод диагностики и представ­ления эмоций в звучащей речи. Хорошее согласие параметров речевого сигна­ла и психофизиологической модели эмоций подтверждают теоретические представления о принципах кодиро­вания информации в нервной системе и продуктивности предлагаемого антро­поморфного подхода к разработке тех­нических систем, в частности методам обработки речевого сигнала.

Обнаруженное совпадение подтвер­ждает и выделенные ранее параметры психофизиологической модели, до­полнительно обосновывая предпочти­тельность (по сравнению с другими из­вестными в литературе) именно такой системы классификации эмоций, как с точки зрения размерности, так и в от­ношении ориентации осей пространст­ва модели.

Полученные данные также ставят но­вые вопросы о взаимосвязи и взаимодейст­вии разноуровневых систем управления – вербальной сознательной и эмоциональ­ной досознательной, которые совмест­но отражаются в речевом сигнале. Необ­ходимо также провести дополнительное исследование универсальности выделен­ных параметров речевого сигнала по отношению к специфике голоса диктора (в данном исследовании описан голос толь­ко одного диктора) и различные речевые высказывания, поскольку возможна ин­терференция содержания и просодиче­ского оформления высказывания, а также интерференция параметров, кодирующих эмоциональное и вербальное содержание речевого сигнала.

Литература:

Адашинская Г.А. Акустические корреляты индивидуальных особенностей функциональных и эмоциональных состояний / Г.А. Адашинская, Д.Н. Чернов // Авиакосмическая и экологическая медицина. – 2007. – Т. 41. – № 2. – С. 3-13.

Бабин Д.Н. О перспективах создания системы автоматического распознавания слитной устной русской речи / Д.Н. Бабин, И.Л. Мазуренко, А.Б. Холоденко // Интеллектуальные системы. 2004. – Т. 8. – Вып. 1-4. – С. 45-70.

Вартанов А.В. Механизмы семантики: человек – нейрон – модель / А.В. Вартанов // Нейрокомпьютеры: разработка, применение. – 2011. – № 12. – С. 54-64.

Вартанов А.В. Что такое эмоции? 4-х мерная сферическая модель аспектов переживания, выражения, восприятия и обозначения эмоций / А.В. Вартанов, И.И. Вартанова // Культурно исторический подход и проблема творчества: Материалы вторых чтений памяти Л.С. Выготского : сб. / под ред. Е.Е. Кравцовой, В.Ф. Спиридонова, Ю.Е. Кравченко. – Москва : РГГУ, фонд им. Л.С. Выготского, 2003. – С. 13-29.

Вартанов А.В. Эмоции, мотивация, потребность в филогенезе психики и мозга / А.В. Вартанов, И.И. Вартанова // Вестник Московского Университета. Сер. 14 Психология. – 2005. – № 3. – С. 20-35.

Вартанов А.В. Четырехмерная сферическая модель эмоций и дистанционный речевой контроль состояния человека / А.В. Вартанов, Н.М. Виденеева // Тезисы докладов рабочей группы «Влияние информационных технологий на национальную безопасность». 4-я Ежегодная Конференция Консорциума ПрМ «Построение стратегического сообщества через образование и науку». – Москва, 2001. – 35 с.

Виденеева Н.М. Эмоциональные характеристики звучащего слова / Н.М. Виденеева, О.О. Хлудова, А.В. Вартанов // Журнал высшей нервной деяельности. – 2000. – Т. 50. – Вып. 1. – С. 29-43.

Вилюнас В.К. Основные проблемы психологической теории эмоций/ В.К. Вилюнас // Психология эмоций : тексты / под ред. В.К. Вилюнаса, Ю.Б. Гиппенрейтер. – Москва : Изд-во МГУ, 1984. – С. 3-26.

Вундт В. Психология душевных волнений / В. Вундт // Психология эмоций : тексты / под ред. В.К. Вилюнаса, Ю.Б. Гиппенрейтер. – Москва : Изд-во МГУ, 1984. – С. 48-63.

Дарвин Ч. Выражение эмоций у человека и животных // Дарвин Ч. Сочинения / под ред. Н.П. Павловского. Т. 5. – Москва, Ленинград, 1940.

Златоустова Л.В. Типы эмфатического ударения в русском литературном языке / Л.В. Златоустова // Общеуниверситетский сборник. – 1957. – Т. 117. – С. 107-111.

Измайлов Ч.А. Сферическая модель различения эмоциональных выражений схематического лица человека / Ч.А. Измайлов, С.Г. Коршунова, Е.Н. Соколов // Журнал высшей нервной деятельности. –1999. – Т. 49. – Вып. 2. – С. 186-199.

Калюжный М.В. Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи : дис. …канд. тех. наук / М.В. Калюжный. – Санкт-Петербург, 2009.

Михайлов В.Т., Златоустова Л.В. Измерения параметров речи / В.Т. Михайлов, Л.В. Златоустова. – Москва : Радио и связь, 1987 – 167,[1] с. : ил.

Никишкян Э.А. Типология интонации эмоциональной речи / Э.А. Никишкян. – Киев, Одесса, 1986.

Перервенко, Ю.С. Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния: дис. …канд. тех. наук / Ю.С. Перервенко. – Таганрог, 2009.

Розалиев В.Л. Моделирование эмоциональных реакций пользователя при речевом взаимодействии с автоматизированной системой : дис. … канд. тех. наук / В.Л. Розалиев. – Волгоград: ВГТУ, 2009.

Романенко Р.Ю. Вейвлет-анализ речевых сигналов. Успехи современной радиоэлектроники / Р.В. Романенко // Зарубежная радиоэлектроника. – 2010. – № 12. – С. 51-54.

Сидоров К.В. Анализ признаков эмоционально окрашенной речи / К.В. Сидоров, Н.Н. Филатов // Вестник Тверского государственного технического университета. – 2012. – Вып. 20. – С. 26-31.

Сидоров К.В. К вопросу оценки эмоциональности естественной и синтезированной речи по объективным признакам / К.В. Сидоров, М.В. Калюжный // Вестник Тверского государственного технического университета. – 2011. –Вып. 18. – С. 81-85.

Симонов П.В. Лекции о работе головного мозга: потребностно-информационная теория высшей нервной деятельности / П.В. Симонов. – Москва : Наука, 2001. – 95 с.

Симонов П.В. Эмоциональный мозг / П.В. Симонов. – Москва : Наука, 1981.

Соколов Е.Н. Сферическая модель интеллектуальных операций / Е.Н. Соколов // Психологический журнал. – 2001. – Т. 22. – № 3. – С. 49-56.

Соколов Е.Н., Вайтнявичюс Г.Г. Нейроинтеллект: от нейрона к нейрокомпьютеру / Е.Н. Соколов, Г.Г Вайтнявичюс. – Москва : Наука, 1989. –238 с.

Соловьева Е.С. Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии : дис. …канд. тех. наук / Е.С. Соловьева. – Москва, 2008.

Станиславский К.С. Моя жизнь в искусстве / К.С. Станиславский. – Москва, 1959.

Старченко И.Б. Методы нелинейной динамики для биомедицинских приложений / И.Б. Старченко, Ю.С. Перервенко, О.С. Борисова, Т.В. Момот // Известия ЮФУ. Технические науки. – 2010. – № 9 (110). – С. 42-51.

Филатова Н.Н., Сидоров К.В. Модель интерпретации знака эмоций по естественной речи / Н.Н. Филатова, К.В. Сидоров // Известия ЮФУ. Технические науки Тематический выпуск. – 2012. – Т. 134. – № 9 – С. 39-45.

Фролов М.В., Милованова Г.Б. Речевой сигнал как показатель функционального состояния человека-оператора / М.В. Фролов, Г.Б. Милованова // Биомедицинская радиоэлектроника. – 2009. – № 6 – С. 49-53.

Шпикуляк И. Ему не все равно: смартфоны смогут различать эмоции. // Ноосфера, IT и электроника – [Электронный ресурс]. – Режим доступа : http://noos.com.ua/ru/post/3104 / – Дата обращения 06 декабря 2012.

Хейдоров И.Э. Классификация эмоционально окрашенной речи с использованием метода опорных векторов / И.Э. Хейдоров, Я. Цзинбинь и др. // Речевые технологии. – 2008 . – Вып. 3. – С. 63−71.

Хмылёв В.Л., Кондрасюк В.А. Практические аспекты взаимодействия информационных уровней восприятия реальности // Вестник Томского гос. университетата. – 2014. – № 381. – C. 87-93.

Хроматиди А.Ф. Исследование психофизиологического состояния человека на основе эмоциональных признаков речи : дис. …канд. тех. наук / А.Ф. Хроматиди. –Таганрог, 2005.

Animal language – [Электронный ресурс]. – Режим доступа : http://animalang.biggo.ru/prakticheskoe_znachenie_  – Дата обращения 12.02.2013.

Chen Y.T. A study of emotion recognition on mandarin speech and its performance evaluation : Ph. D. dissertation / Y.T. Chen. – Tatung, 2008.

Intel Developer Centers – [Электронный ресурс]. – Режим доступа : http://developer.intel.com ; http://www.intel.com/content/www/us/en/search.html?keyword=SPL +  http://www.intel.com/content/www/us/en/search.html?context=767188&tab=767189&keyword=IPPS  – Дата обращения 12.12.2013

Morist M.U. Emotional speech synthesis for a radio dj: corpus design and expression modeling: master thesis MTG-UPF dissertation / M.U. Morist. – Barcelona, 2010.

Osgood C.E., Suci G.J. & Tannenbaum P.H. The measurement of meaning. – Urbana. University of Illinois Press. 1957.

Schlosberg H.S. A scale for the judgerment of facial expressions // Exsperimental Psychology. – 1941. – P. 497-510.

Siging W. Recognition of human emotion in speech using modulation spectral features and support vector machines: master of science dissertation / W. Siging. – Kingston, 2009.

Для цитирования статьи:

Вартанов А.В.Антропоморфный метод распознавания эмоций в звучащей речи. // Национальный психологический журнал. 2013. № 1. c.69-79. doi: 10.11621/npj.2013.0210

Скопировано в буфер обмена

Скопировать