litceysel.ru
добавить свой файл
  1 2 3 ... 6 7

1. Введение

В этой статье мы рассмотрим задачу текстонезависимой идентификации дикторов. Один из наиболее современных подходов к решению этой задачи – использование гауссовых смесей (GMM) вида [1] для моделирования распределения таких характеристик диктора как мел-кепстральные коэффициенты (MFCC) [1] или кепстральные коэффициенты линейного предсказания (LPCC) [2]. Классификация достигается выбором класса диктора с максимальным правдоподобием на заданном участке данных. Более сложный подход [3] использует дикриминативные методы (например, метод опорных векторов) для разделения акустических классов. Также существуют гибридные системы [4], комбинирующие метод опорных векторов и GMM.

Мы рассмотрим простейшую систему идентификации диктора, в которой можно выделить 3 основных этапа: 1) предобработка на основе MFCC и использования детектора речи, 2) начальная кластеризация в пространстве признаков, 3) переоценка параметров гауссовых смесей на основе EM-алгоритма (Expectation Maximization) [5]. Решающее правило в задаче идентификации формулируется в виде принципа максимального правдоподобия модели диктора на наборе входных векторов признаков X:

, (1), где – набор параметров гауссовых смесей, а каждый i-ый набор определяет модель диктора, заявленного на поиск.

В данной работе мы подробно остановимся на выборе способа начальной кластеризации для построения модели диктора. Ниже будут рассмотрены несколько известных алгоритмов кластеризации, использующих как четкую, так и нечеткую логику. Используя эти алгоритмы, мы ищем метод машинного обучения, на основе которого строятся модели с наименьшей ошибкой идентификации по формуле (1). Также рассматривается влияние детерминированности начального приближения ЕМ-алгоритма на эффективность построенных моделей в задаче идентификации диктора. В конце статьи указаны некоторые перспективные направления исследования задачи начальной кластеризации в рамках акустического анализа речи.

2. Алгоритмы кластеризации

2.1. Алгоритм К-средних


К-средних – один из наиболее популярных алгоритмов кластеризации. Его основные достоинства – простота реализации и низкая вычислительная сложность [6]. Работая на дискретном наборе данных, алгоритм минимизирует расстояние между k центрами кластеров и точками исходных данных в соответствующем пространстве.

2.2. Алгоритм К-средних++


К-средних++ – модификация К-средних, отличающаяся инициализацией, которая рекурсивно инициализирует центры кластеров, на основании вероятности, где D(x) – кратчайшее евклидово расстояние между точкой x и ближайшим к ней уже выбранным центром [7].

Если набор центров C построен при помощи К-средних++, то потенциальная функция удовлетворяет .

2.3. Алгоритм Linde-Buzo-Gray (LBG)


LBG изначально представлен в [8]. Он очень похож на К-средних, за исключением того, что он обходит недетерминированность выбора начальных точек. Основная идея алгоритма – установить начальные центры в соответствии с главными компонентами входного вектора. Сначала находится среднее всего вектора. Затем область входных данных разбивается на 2 кластера по оси главной компоненты. Далее с помощью стандартного К-средних вычисляются 2 кластера. Затем берется кластер с большим радиусом и снова делится пополам. Так продолжается до достижения нужного количества кластеров.

2.4. Алгоритм Fuzzy C-means (FCM)

FCM – один из наиболее популярных алгоритмов нечёткой кластеризации. Он делит область данных на K сферических кластеров. Основная идея алгоритма – построение матрицы разбиения , значениями которой являются вероятности принадлежности k-ому кластеру точки с индексом n [9]. На каждой итерации вычисляются центры кластеров и пересчитывается матрица разбиения , где – евклидова норма.


<< предыдущая страница   следующая страница >>