Анализ голоса следует с осторожностью использовать в суде. Часть 2

Звуки интерпретируются по-разному

Научное сообщество дискредитировало некоторые методы анализа голоса, и эксперты еще далеки от достижения консенсуса по наиболее эффективному способу проведения исследования. Какие мнения существуют? Как в большинстве случаев есть «физики» и «лирики». К условным «физикам» отнесём технических специалистов, выступающих за автоматизированные методы, к «лирикам» – специалистов, считающих, что человек может и не хуже машины проанализировать голос.

Эксперт Хуана Гил Фернандес рассказывает:

Лингвисты поддерживают использование полуавтоматических методов, которые сочетают компьютерный анализ и интерпретацию речи человеком, в то время как технические специалисты придают большее значение инструментальным методикам.

Что такое полуавтоматический метод? Его называют «акустико-фонетическим», поскольку он сочетает акустические измерения (прослушивание) и инструментальные (работа со специфическим программным оборудованием).

Специалисты, которые используют акустико-фонетические методы, обычно начинают с прослушивания записи и её расшифровки. Затем они определяют ряд особенностей голосового сигнала. При акустическом исследовании эксперт полностью полагается на свой слух и специальные познания в области лингвистики. Он изучает разноуровневые признаки речи говорящего.

Используя лингвистический метод, эксперт изучает выбор говорящим определённых слов (лексикон), структурирование предложений (синтаксис), речевые трудности, предположим, заикание. Суммой этих характеристик является специфический набор речевых особенностей индивидуума (идиолект).

Другие признаки речи, с которыми работает эксперт, ‒ это так называемый супрасегментный уровень: качество голоса, интонация, количество слогов в секунду и так далее. Низкоуровневые, или сегментарные признаки, главным образом отражают физиологию голоса, они лучше поддаются автоматизированному анализу.

Одной из основных характеристик является частота. Если голосовой сигнал разделен на сегменты длиной в несколько миллисекунд, то каждый сегмент будет содержать вибрацию с почти идеальной по форме звуковой волной. Частота этой вибрации является основной, той, которая соответствует частоте вибрации голосовых складок и способствует тому, что мы воспринимаем как тембр или тон конкретного голоса. Средняя частота основного тона взрослого мужчины составляет около 100 герц, а у взрослой женщины около 200 герц.

Эту характеристику довольно трудно использовать. С одной стороны, диапазон мало варьируется между различными людьми, говорящими в одном и том же контексте. С другой стороны, частота тона диктора резко меняется, если к ней подключается эмоция (говорящий злится или кричит), если его плохо слышат по телефонной связи. Еще одна проблема заключается в том, что типы фонетических процессов, так же как и мелодические особенности, сильно зависят от языка. Получается, чтобы провести фоноскопическое исследование, эксперт обязательно должен знать язык, с которым работает.

Еще один способ идентификации диктора – аудитивный метод. Его используют для автоматических измерений эксперты-фоноскописты. Когда мы произносим гласную букву, то голосовой тракт (рот и голосовые связки) ведёт себя как система резонирующих подвижных трубок. Частоту этого резонанса (её называют формантой) можно построить на графике, который представляет собой определенный спектр сигналов. Эти спектрограммы можно сравнивать с другими. Это очень трудозатратный метод. По оценкам экспертом на обработку двух фонограмм длительностью 5 минут каждая может уйти от 2 до 4 часов.

Кроме того, поскольку акустико-фонетический метод является полуавтоматическим, он оставляет поле для субъективного суждения. Иногда эксперты, работающие над одним и тем же материалом, используя аналогичную технику, могут прийти к несогласованным выводам. Поэтому эксперты говорят, что мы не можем быть уверены в личности говорящего, основываясь только на его голосе. Самое большее, что мы можем сказать, ‒ два эти примера голоса совместимы.

Автоматизированные системы могут срабатывать впустую

В 1990-х годах начала набирать популярность новая система идентификации личности по речевому сигналу, которая могла бы минимизировать субъективность экспертизы. Эта система называется автоматическое распознавание говорящего, или ASR.

Запись обрабатываются программным обеспечением, которое извлекает специфические значения из сигнала, классифицирует их и сопоставляет их со значениями в банке голосовых данных. В большинстве случаев алгоритм такой: программа разбивает сигнал на краткие временные «окна» и извлекает из них спектры частот. Затем спектры проходят математические преобразования.

«То, что мы делаем, очень отличается от того, что делают лингвисты», ‒ говорит Антонио Морено, вице-президент Agnitio, испанской компании, чью систему ASR использует ИНТЕРПОЛ. «Наша система намного точнее, два разных оператора получат один и тот же результат», ‒ утверждает он.

Лингвисты не согласны. «Плюс ARS в том, что она в меньшей степени нуждается в человеке…Минус в то, что коэффициенты, которые использует система, при анализе речи, не слишком отличаются друг от друга, а значит, некоторые выводы машины – это выхлоп впустую», ‒ считает Питер Френч из Йоркского университета, президент Международной Ассоциации судебной фонетики и акустики (IAFPA). ‒ «Я уверен, что фоноскопическая экспертиза не может обойтись без человека, чтобы полностью положиться на машину».

Эксперты уверены: фоноскопическая экспертиза не может обойтись без человека, еще рано полностью доверять машине.

Другие эксперты также настроены критично: «…на данный момент для использования ASR недостаточно теоретической базы», – утверждает Сильвия Моосмуллер, ученый-акустик Австрийской Академии наук.

Одной из причин скептицизма является тот факт, что большинство алгоритмов ASR обучаются и тестируются на базе голосовых данных из американского Национального института стандартов и технологий (NIST). База данных является международным стандартом, но она включает в себя только студийные записи голосов, они далеки от реальной жизни, от дикторов (говорящих), которые используют в речи различные языки, стили общения, технологические каналы и так далее.

«Фактически, то, что программа моделирует, – это не голос, а сеанс, состоящий из голоса, канала связи и других переменных», – рассказывает Морено. Он считает, что автоматическая идентификация говорящего в общем «более чем готова дать достоверные результаты и повысить надежность судебной экспертизы». Тем не менее, он признает, что ASR «является одним из многих методов, доступных экспертам, и эти методы должны дополнять, а на противостоять друг другу».

Основная проблема с ASR может заключаться не в самом программном обеспечении, а в человеке, использующем его. Для работы с программой вам нужен ученый. «Вы не можете просто взять и поместить перед компьютером любого... Эти программы похожи на самолеты: вы можете купить самолет за один день, но Вы не можете научиться летать за три недели», – подчеркивает Дидье Мьюли из нидерландского Института судебной экспертизы.

Тем не менее, ASR успешно продается людям, не являющимся экспертами в области фоноскопической экспертизы. И стоимость программного обеспечения немалая: может доходить до 100 000 евро.

Необходим современный статистический анализ

Отвлечёмся от проблем с выбором методики проведения экспертизы на другую. А именно: фоноскопическая экспертиза еще не осуществила переход от прежних к современным статистическим методам, как, к примеру, это сделала ДНК-экспертиза. Это как?

Один из примеров нового статподхода описал эксперт Моррисон, тесно сотрудничающий с ИНТЕРПОЛОМ:

Представьте, что мы нашли отпечаток обуви 9 размера на месте преступления, и у нас есть подозреваемый, который носит обувь 9 размера. В другом случае мы находим отпечаток обуви 15 размера, и подозреваемый носит 15 размер. Во втором случае, улики против подозреваемого сильнее, ведь 15 размер более редкий, чем 9.

Другими словами, недостаточно измерить сходство между двумя отпечатками обуви (или двумя голосами, или двумя образцами ДНК). Аналитики также должны учитывать, насколько типичны эти следы (или голоса, или ДНК).

Что касается исследование голоса, то проблему можно сформулировать следующим образом: если подозреваемый и преступник – это одно и то же лицо, насколько вероятно сходство между двумя голосами? И если они не один и тот же человек, насколько вероятно сходство? Отношение этих двух вероятностей называется отношением правдоподобия, или силой доказательства. Чем выше сила доказательств (например, для голосов, которые очень похожи и очень нетипичны), тем сильнее это самое доказательство.

Более высокий или более низкий коэффициент вероятности может увеличить или уменьшить вероятность виновности, но вероятность также зависит от других сигналов и доказательств, в том числе судебной экспертизы.

Такой подход называют Байесовской вероятностью. Эта вероятность определяется как степень уверенности в истинности суждения. Теорема Байеса названа в честь её автора Томаса Байеса (1702—1761) — английского математика и священника, который первым предложил использование теоремы для корректировки убеждений, основываясь на обновлённых данных.

Следуя Байесовской теории, вероятность вычисляется не раз и навсегда, а постоянно корректируется по мере обнаружения новых доказательств.

В руководстве по проведению судебных экспертиз, опубликованных в июне 2015 года, Европейская сеть институтов судебной медицины рекомендует использовать Байесовскую теорию, и особенно отношение вероятности. Однако, согласно докладу Интерпола, только 18 из 44 опрошенных экспертов произвели переход.

Одно серьезное препятствие мешает применению Байесовской статистики: трудно оценить, насколько типичен голос, поскольку отсутствуют статистические нормы по распределению речевых признаков.

«Если у вас есть база данных из двух миллионов отпечатков пальцев, вы можете быть вполне уверены в надежности ваших оценок, но голосовые базы данных намного меньше», – подчеркнул Паолони. Например, банк данных DyViS, используемый в Великобритании, включает 100 мужчин-дикторов, большинство из которых получили образование в Кембридже. Морено уверен, что некоторые полицейские банки данных, которые не являются публичными, содержат тысячи голосов, и что некоторые организации имеют базы данных, охватывающие сотни тысяч дикторов.

«В эпоху больших данных самым разумным было бы создать огромное хранилище голосовых данных», – считает Паолони. Он предлагает собирать голосовые записи людей из различных групп населения, с учетом демографических особенностей (пол, язык, диалект и т. д.) и стиля речи (усталый, возбужденный, сонный).

Рассматривать экспертные заключения в качестве ключевых доказательств в суде следует с особой осторожностью.

Проанализировав судебную практику и методы проведения фоноскопических экспертиз, авторы статьи пришли к выводу, что состояние судебной фоноскопии сегодня имеет некоторые ограничения (теоретические и практические), поэтому рассматривать экспертные заключения в качестве ключевых доказательств в суде следует с особой осторожностью. Суды должны руководствоваться принципом In Dubio Pro Reo – «В случае сомнения – в пользу обвиняемого» – иначе вероятность ошибки эксперта-фоноскописта и неправомерного приговора остаётся высокой.

Статья первоначально публиковалась в журнале Le Scienze, для Scientific American переведена и адаптирована с разрешения автора в январе 2017 // https://link.ceur.ru/3yq9ne/

Авторы: Мишель Катандзаро, Элизабетта Тола, Филипп Хаммел, Астрид Вишиано.

Анализ голоса следует с осторожностью использовать в суде. Часть 2

Звуки интерпретируются по-разному

Автоматизированные системы могут срабатывать впустую

Необходим современный статистический анализ

Похожие статьи

Заказать звонок

Важно!