Что эффективнее распознает голос: автоматизированные системы или ухо?

Расследование преступлений не обходится без помощи свидетелей. Свидетели, которые не видели преступника, но слышали его речь, могут быть очень полезны. Определенная фраза, которую запомнил свидетель или жертва, или аудиозапись с требованием о выкупе или месте преступления может стать ценной уликой, если другая информация о подозреваемом отсутствует.

Следователи в работе используют автоматизированные системы распознавания речи (далее – АСРР). В чем их недостаток? Если говорящий намеренно искажает голос, то распознать его и идентифицировать, кому принадлежит этот голос, становится намного сложнее.

Ученые из Университета Восточной Финляндии недавно проводили исследование, результаты которого были опубликованы в журнале «Речевые Коммуникации» (Speech Communication). Ученые хотели сравнить, насколько точно АСРР и человеческое ухо могут распознать возраст говорящего, который нарочно искажал свой голос, делая его более молодым или более старым.

Исследователи также выясняли, насколько такое умышленное искажение голоса меняет основные характеристики звука.

Какими были результаты?

Результаты тестов показали: эффективность распознавания человеческим ухом вполне сравнима с эффективностью автоматизированных систем.

Например, оценка сложности тестов (как «легкие», «средние» и «сложные») автоматизированной системой и принявшими участие в эксперименте людьми (далее – слушатели) была схожей.

В среднем, слушатели делали 8,23 ошибки на 24 попытки. Если считать все ответы участников в каждом тесте, то результат будет чуть лучше – 8 ошибок.

Восемь тестов автоматизированная система оценила как «легкие»: в них 70 слушателей сделали 42 ошибки (по 8 попыток на участника, всего 560 попыток). В восьми «средних» по сложности тестах было сделано 230 ошибок; в восьми «трудных» – 306 ошибок.

Эксперимент, в котором фразы, в основном, произносились на финском языке, показал, что точность при распознавании голосов у слушателей как коренных финнов, так и не коренных, значительно снижалась, если голоса «маскировались».

Слушатели, не являющиеся коренными финнами, делали больше ошибок. Тем не менее, авторы исследований пришли к выводу, что на точность распознавания измененных голосов не влияет принадлежность к носителю языка. Более того, авторы исследований обнаружили отсутствие зависимости между способностью человека распознавать голос и его возрастом, полом, наличием музыкальных способностей, образованием или работы лингвистом.

При проведении акустического анализа речи, когда ораторы старались замаскировать голоса под более «молодые» или «старые», исследователи обнаружили, что частота звука увеличивалась и в том и в другом случае. Предыдущие исследования отмечали, что говорящим легче увеличивать частоту звука, имитируя более высокий голос, чем уменьшать её.

Исследователи считают, что этот признак может в дальнейшем стать своеобразной подсказкой экспертам: обнаружив его, можно предположить, что человек пытается «замаскировать» свой настоящий голос.

Для более точной верификации голоса, независимо от того, выполняется ли она людьми или автоматизированными системами распознавания речи, необходимо будет анализировать вокальные параметры речи, которые, как правило, меняются при попытке изменить голос», - пишут авторы исследования.

Источник: статья Automatic Voice Recognition Systems, Human Listeners Affected Similarly by Aged-based Voice Disguises.

Перевод выполнен сотрудниками Института судебных экспертиз и криминалистики.

См. также:

Фоноскопические экспертизы

«Спой, птичка!»

«А ты на нас не ори — мы с тобой культурно разговариваем»

Что эффективнее распознает голос: автоматизированные системы или ухо?

Похожие статьи

Заказать звонок

Важно!