Анализ голоса следует с осторожностью использовать в суде. Часть 1

Результаты фоноскопической экспертизы часто представляют в суде в качестве доказательства, а между тем её научную базу некоторые считают довольно шаткой.

Распознавание голоса занимает видное место в криминалистике. Примеров предостаточно: когда организация ИГИЛ опубликовала видео обезглавливания журналиста Джеймса Фоли, эксперты со всего мира попытались идентифицировать замаскированного террориста, известного как джихадист Джон, проанализировав звук его голоса. Документы, раскрытые Эдвардом Сноуденом, показали, что агентство национальной безопасности США проанализировало содержание миллионов телефонных разговоров. Колл-центры в банках используют голосовую биометрию для аутентификации пользователей и профилактики мошенничества.

Является ли сложившаяся практика анализа голоса научно обоснованной? На этот вопрос попробовали ответить авторы нескольких научных журналов. Они засомневались в качестве одного из видов применения анализа голоса – судебно-фоноскопической экспертизы в судах.

Авторы статьи собрали два десятка судебных дел со всего мира, в которых судебная фоноскопия вызывала споры. Последние данные, опубликованные ИНТЕРПОЛОМ, свидетельствуют о том, что половина судебных экспертов по-прежнему используют аудиометоды, которые до этого публично критиковались.

На понимание того, что такое фоноскопическая экспертиза, влияет в том числе и массовая культура. Так, в последние годы многочисленные фильмы и телесериалы о буднях криминалистов и экспертов рисуют во многом нереалистичную картинку «науки о голосе». Например, в фильме 1994 года «Прямая и явная угроза» (Clear and Present Danger, США) эксперт, которого играет Гаррисон Форд (прим. ред.), слушает короткую аудиозапись и заявляет, что голос на плёнке принадлежит «кубинцу в возрасте от 35 до 45 лет, с образованием [...] где-то в восточной части Соединенных Штатов». Затем эту запись загружают в «суперкомпьютер» и сравнивают с голосом подозреваемого. Суперкомпьютер выдаёт: точность правильной идентификации составляет 90,1%.

Сцена поражает, согласитесь? «Симбиоз» эксперта и суперкомпьютера вычислили преступника. Поражает воображение! На самом деле, не поражает, а искажает. Да, эта сцена может исказить представление о реальных возможностях судебной фоноскопии. Для этого искажения уже придумали термин – «эффект ЦРУ». Это значит, что из-за многочисленных фильмов и сериалов у людей сложились нереалистичные (читай – завышенные) ожидания от возможностей судебной экспертизы. Так, по крайней мере, считает Хуана Хиль Фернандес, судебный эксперт-фоноскопист из Consejo Superior de Investigaciones Cientificas (Высший Совет научных исследований), Мадрид, Испания.

В 1997 году Французское Акустическое Общество (French Acoustical Society) публично призвало прекратить использование экспертных заключений как доказательства в суде. Этот протест стал реакцией на дело Джерома Прието, человека, который провел 10 месяцев в тюрьме из-за противоречивого полицейского расследования. Полицейские ошибочно идентифицировали голос Прието при изучении телефонного звонка, предъявив ему обвинение в подрыве автомобиля.

Увы, тревожных примеров, сомнительной экспертизы аудиозаписей и последовавших за этим судебных ошибок, немало. Журналисты из издания о криминалистике, проанализировали судебную практику в 2015 и 2016 годах, и их выводы были неутешительными.

Анализ судебной практики, где на приговор повлиял вывод эксперта-фоноскописта, дело непростое. Ни одна страна мира не ведёт учет того, сколько ежегодно проводят фоноскопических экспертиз. Однако в Италии и Англии полагают, что их не меньше сотни.

О фоноскопической экспертизе и экспертах

В процессе исследования голоса эксперт решает одну из следующих задач: расшифровка записи и установление её дословного содержания, сравнение исследуемого голоса с голосом подозреваемого, составление списка наиболее похожих голосов, идентификация личности говорящего на основе диалекта пр. признаков речи, интерпретация шумов или проверка подлинности записи. Источником записи, которую будет анализировать эксперт, может быть телефонный разговор, сервис голосовой почты, звонок с требованием выкупа или на номер экстренных служб или полиции.

Одним из основных препятствий, с которыми приходится сталкиваться экспертам, – это низкое качество записи. По словам Андреа Паолони, эксперта-фоноскописта из Италии, «телефонный сигнал не несёт в себе достаточно информации, чтобы эксперт смог определить все тонкости речи и её различия; вам значительно улучшить звуковую дорожку, чтобы, к примеру, отличить друг от друга некоторые согласные, такие как ф и с или м и н». Что еще хуже, записанные сообщения часто шумные и короткие, а их возраст может исчисляться годами или даже десятками лет.

В некоторых случаях установление обстоятельств телефонного разговора может быть крайне сложной задачей. Представьте себе, что вам надо воссоздать следующую ситуацию: люди разговаривают по телефону в переполненном кинотеатре, один использует старый мобильный телефон, а другой сотовый неизвестного иностранного бренда. Самый настоящий «кошмар фоноскописта»!

В статье 1994 года, опубликованной по случаю семинара ESCA на тему автоматического распознавания и идентификации говорящего, эксперт Герман Кюнцель подсчитал, что 20% фрагментов записей, проанализированных Федеральной полицией Германии, содержали только 20 секунд голоса, пригодного для исследования.

А тем не менее многие эксперты-криминалисты готовы (вынуждены) работать над голосовыми фрагментами крайне низкого качества. Есть эксперты, которых качество нисколько не смущает. В резонансном деле Джорджа Циммермана, который в 2012 году застрелил молодого афроамериканца Трейвона Мартина в Сэнфорде, штат Флорида, один специалист заявил, что может составить голосовой профиль и даже интерпретировать крики, которые можно услышать на фоне экстренного вызова.

К сожалению, ошибки при проведении исследования голоса – это не единичные исключения. В 2016 году ИНТЕРПОЛ провёл опрос (опубликован в июне 2016 года в журнале Forensic Science International), который показал: половина респондентов (21 из 44), принадлежащих к полицейским структурам со всего мира, используют методы, которые имеют под собой сомнительную научную базу. К примеру, один из методов – самый простой и «древний»: «кто-то где-то что-то услышал и вроде бы узнал говорящего». В 1992 году канадец Гай Пол Морин был приговорен к пожизненному заключению за изнасилование и убийство девятилетней девочки. В дополнение к другим доказательствам, мать жертвы сказала, что узнала голос Морина. Три года спустя тест ДНК оправдал Морина как убийцу.

Такие ошибки неудивительны. В издании «Судебная лингвистика» в 2000 году опубликовали результаты эксперимента. Несколько добровольцев, знавших друг друга, должны были прослушать записи голосов и определить, кто есть кто. Во-первых, они довольно долго трудились над задачей, а, во-вторых, один из участников эксперимента не смог распознать даже свой собственный голос.

Кстати, это не означает, что человеку, точнее его уху, свойственно ошибаться, а машине – нет.

Фактически, первый инструментальный способ идентификации личности по голосу, используемый в судебной фоноскопии, был лишен какой-либо научной основы в течение нескольких лет. Хотя, согласно докладу ИНТЕРПОЛА, некоторые его вариации используют по-прежнему. Речь идет о методе исследования «отпечатка голоса» (voice printing), или сопоставлении спектрограмм. Эксперт сравнивает спектрограмму слова, произнесенного подозреваемым, с тем же словом, но из перехваченного сигнала. Спектрограмма представляет собой графическое представление частот голосового спектра, то, как они изменяются, в то время, как производится слово или звук.

Метод «отпечатков голоса» получил известность, благодаря статье ученого Лоуренса Джи Кирста в журнале Nature. Однако уже в 1979 году в докладе независимого агентства при правительстве США «Национальный Научный Фонд» прозвучала критика метода. Авторы писали о шаткой научной основе, мол, спектрограммы недостаточно хороши в дифференциации говорящих, так как они слишком изменчивы.

Эксперт Паолони указал:

Спектрограмма соответствия – это мистификация, чистая и простая. Сравнение изображений так же субъективно, как и сравнение звуков.

Продолжение материала часть 2

Статья первоначально публиковалась в журнале Le Scienze, для Scientific American переведена и адаптирована с разрешения автора в январе 2017 // https://www.scientificamerican.com/article/voice-analysis-should-be-used-with-caution-in-court/

Авторы: Мишель Катандзаро, Элизабетта Тола, Филипп Хаммел, Астрид Вишиано.

Анализ голоса следует с осторожностью использовать в суде. Часть 1

О фоноскопической экспертизе и экспертах

Похожие статьи