Биометрия по голосу

Печать E-mail

Идентификация человека по голосу - один из традиционных способов распознавания, применяемый повсеместно. Можно легко узнать собеседника по телефону, не видя его. Также можно определить психологическое состояние по эмоциональной окраске голоса.
Т.к. голосовая идентификация бесконтактна и не требует от человека особых усилий, ведутся работы по созданию голосовых замков и систем ограничения доступа к информации. Интерес в этой области связан ещё и с прогнозами повсеместного внедрения голосовых интерфейсов. На сегодняшний день существует два подхода к идентификации человека по голосу, построенные на учёте структуры речевого сигнала.

каждый всплеск голосового сигнала соответствует некоторому фрагменту речи. Это может быть одна буква, сочетание букв (фонема) или короткое слово (то самое слово из трёх букв сюда не относится). Всего в русской речи есть 42 фонемы, но подходят для идентификации человека не все. Часть фонем огласованы. Именно им присущ индивидуальный характер. Это звуки "э", "о", "л", "а", "и" и другие. Другая часть фонем - шипящие (шумоподобные). Это "ц", "ч", "ш", "щ" и т.д. Они не являются индивидуальными и их использование при идентификации может привести к снижению качества распознавания. На рисунке выше синим цветом отмечена огласованная фонема, а красным - шумоподобная.


Ниже - они же, но крупно:

  

 Огласованные фрагменты речи имеют явно выраженный периодический характер. Период и характер колебаний индивидуальны. Это хорошо видно на графике:

  

 Для одного человека графики очень похожи. У другого человека и период тона и форма внутренних колебаний значительно отличаются.
[править]
Первый подход

Индивидуальные различия распределения мощности сигнала по спектру положены в основу первой категории систем биометрической идентификации по голосу. Они строятся на базе гребёнки узкополосных фильтров, выделяющих из голоса колебания разных частот.

  

 На основании выходных данных можно построить следующий график (амплитудно-частотную характеристику):

  

 Полосы пропускания фильтров выбираются при проектировании системы, но они не должны быть слишком узкими, чтобы не зависеть от вариаций частотного спектра голоса. В то же время, они не должны быть и очень широкими. Нужно подбирать оптимальную ширину, достаточную для уверенной идентификации. Обычно используют 16 фильтров, которые расширяются по мере роста значений выделяемых частот. Это связано с нестабильностью высоких частот по энергии (в сравнении с низкими частотами).

Системы спектрального анализа голоса обучаются, запоминая распределение энергий с частотой порядка 35 миллисекунд. В итоге получается большой массив данных, соответствующий фразе (сравнимо с размером *.wav-файла соответствующей продолжительности). Данные снимаются с частотой 16кГц и в 16 разрядов (это связано с особенностями фильтров). После чего они пропускаются через фильтры. Итоговый массив данных выходит очень маленького размера (нужно записать только 16 координат вершин по одной оси).

Для идентификации можно использовать как статистические методы, так и нейронную сеть, что не должно влиять на результат распознавания.
[править]
Второй подход

Использование аппарата линейного предсказания.

Огласованные колебания звука имитируют периодическими ударами по некоторому колебательному звену (колоколу). Период ударов должен точно соответствовать периоду основного тона голоса. Динамические характеристики колокола должны меняться, чтобы получить форму, близку к голосовой фразе.

  

 Понятно, что в качестве колокола используется цифровой колебательный фильтра, а не реальный аналог:

 

 Число коэффициентов фильтра колеблется от 10 до 12 (а1,..., а12). Этого достаточно для качественного воспроизведения речи с сохранением индивидуальных особенностей. Коэффициенты линейного предсказателя вычисляются на выборке из 180-220 отсчётов ("ударов"). Вычисление параметров предсказателя (цифрового фильтра) находят решением системы из 10...12 линейных уравнений. Для того, чтобы понизить вычислительную нагрузку частоту дискретизации понижают до 8 кГц.

При имитации огласованных звуков на вход цифрового фильтра подают периодическую последовательность импульсов, промодулированную по амплитуде. В таком случае на выходе фильтра появляются периодические переходные процессы, повторяющие моделируемый звук. При моделировании шипящих на вход фильтра подают случайный шум нужной амплитуды.

При обучении системы, на её вход подают несколько образцов голоса пользователя. Они преобразуются в последовательность импульсов основного тона и соответствующую последовательность коэффициентов линейного предсказателя. Получается массив данных, описывающий индивидуальные особенности голоса человека для данной фразы. Этот массив из коэффициентов и является тем биометрическим эталоном, который записывается в базу данных.
[править]
Характеристики обоих способов

Ошибки первого рода (недопуск своего) состовляют 1-5% (хотя, в зависимости от реализации программного обеспечения, могут доходить до 40% - проверено опытным путём). Количество ошибок второго рода (пропуск чужого) зависит от того, знает ли злоумышленник ключевую фразу (до 1%, если голоса близки) или нет (0,00000001%).

Голосовую защиту просто пройти, если перехвачена или записана ключевая фраза. Поэтому разработчики сейчас пытаются создать систему, защищённую от перехвата (Т.е. опознающую человека по любой фразе. Не совсем понятно, как это может защитить, ведь если записана фраза, то к такой системе она подойдёт в любом случае. Возможно, у них есть и другие подходы к решению этой проблемы.)

Сейчас можно использовать голосовую идентифиацию совместно с другими видами защиты. Например, по геометрии лица. Тогда можно отслеживать движение губ и синхронизацию их со звуком. Либо как-то иначе.
[править]
Защита от перехвата парольной фразы

Один из эффективных путей защиты основан на использовании речевой информации, вводимой с ларингофона, контактирующего с телом говорящего (российский патент). Ларингофон существенно меняет индивидуальную окраску звука в зависимости от места контакта с телом.

  

 Отсутствие сведений о зоне съёма сигнала усложняет преодоление биометрической идентификации, т.к. сигнал зависит от местоположения ларингофона. Его нельзя описать современными техническими средствами из-за индивидуального строения и взаимодействия мышц, костей и хрящей конкретного человека.

При произношении речевой сигнал колебаниями распространяется внутри тела. Получается сложная система звукопроводов разного типа. В итоге, в каждую из зон контакта звук приходит разными путями. На графике показан один и тот же сигнал, снятый с шейной (зелёный цвет) и ключичной зоны (розовый цвет):

 

  

  

 Видно, что период основного тона повторяется очень точно, но форма колебаний совершенно другая.

Таким образом, даже если у злоумышленника есть пароль и информация о месте контакта ларингофона, он не может пройти идентификацию из-за различий в голосе.
[править]
Оценка биометрического метода
[править]
Достоинства
Привычный для человека способ идентификации.
Низкая стоимость (самая низкая среди всех биометрических методов).
Бесконтактность.
[править]
Недостатки
Высокий уровень ошибок 1 и 2 рода.
Необходимость в специальном шумоизолированном помещении для прохождения идентификации.
Возможность перехвата фразы "магнитофоном".
Качество распознавания зависит от многих факторов (интонация, скорость произнесения, психологическое состояние, болезни горла).
Необходимость подбора специальных фраз (С огласоваными фонемами. Так, в качестве идеальной фразы на лабораторных работах выступала "накомоде").

 

 

 

 

 

 

 
« Пред.   След. »
RocketTheme Joomla Templates