litceysel.ru
добавить свой файл
1 2 3 4 ... 6 7

2.5. Алгоритм Гюстафсона-Кесселя (ГК)

Алгоритм ГК рассматривается как улучшение FCM [10]. Его основное отличие от FCM – введение для каждого кластера матрицы ковариации, вычисляемой по формуле . На основании этой матрицы пересчитывается расстояние от точки до центра кластера в формуле: . Далее матрица разбиения вычисляется так же, как в алгоритме FCM.

3. Эксперимент

Для эксперимента мы выбрали базу русскоговорящих дикторов, записанную с телефонным качеством 8 кГц и частотным диапазоном 300–3400 Гц. Обучающий набор состоит из 40 дикторов, включающих мужские и женские голоса. Каждая запись, длиной в среднем 40 секунд, содержит фоновый шум, тишину и прочие неречевые данные. Тестовая база состоит из 10-, 20- и 30-секундных речевых фрагментов, причем каждый диктор представлен в среднем 5 записями. Результаты были получены независимо для каждой длины тестового файла, а затем скомбинированы для получения итогового результата.

4. Результаты


Точность распознавания нашей системы с различными методами инициализации показана на схеме 1. Шкала схемы показывает процентное соотношение корректно распознанных дикторов.

Другой интересный результат, полученный нами – зависимость точности распознавания от детерминированности метода инициализации. Для недетерминированных алгоритмов эксперимент был проведен 15 раз с различными начальными значениями, а затем получен усредненный результат. Как это видно из схемы 2, детерминированные методы дают примерно 1,5% прирост точности идентификации.

5. Выводы

Мы провели сравнение различных методов кластеризации для задачи идентификации диктора. Были рассмотрены и протестированы следующие алгоритмы: К-средних, К-средних++, Linde-Buzo-Gray, Fuzzy C-means и алгоритм Гюстафсона-Кесселя. Было установлено, что производительность модели, основанной на гауссовых смесях, зависит от детерминированности метода инициализации ЕМ. Linde-Buzo-Gray лидирует среди алгоритмов четкой кластеризации, поскольку центры кластеров находятся в соответствии с главными компонентами, а не случайным образом, как в К-средних и К-средних++. Нечеткие алгоритмы показывают лучшие результаты, поскольку они более детерминированны и используют всю область для пересчета центров. Все алгоритмы, кроме Гюстафсона-Кесселя, ищут сферические кластеры, а ГК ищет эллиптические, что положительно отражается на его результатах.

6. Перспективы дальнейших исследований


Любую произносимую речь можно представить как непрерывную по времени траекторию в признаковом пространстве, однозначно задающую характеристики речевого тракта в момент произношения. Признаковое пространство можно разбить на подобласти таким образом, чтобы все траектории, соответствующие произношению конкретного слова, проходили через одни и те же подобласти. Это часто применяется фонетистами при построении диаграмм гласных [12]. Каждая подобласть определяет фонетическую единицу, последовательность которых задает фонетическую транскрипцию слова в естественном языке. В задаче идентификации диктора по голосу вопрос о качественном разбиении признакового пространства на подобласти проистекает из задачи более детального акустического анализа, включающего: 1) сравнение характера произношения одной фонемы различными дикторами, 2) сравнения скоростей изменения фонем (темпа речи). В рассмотренной выше системе идентификации диктора соответствующего анализа произвести нельзя, так как правдоподобие вычисляется сразу для всех входных данных.

Дальнейшее исследование будет направлено на поиск оптимального автоматического разбиения исходного пространства акустических признаков на подобласти, где под оптимальностью понимается минимизация ошибки включения данных, полученных из различных фонем, в один кластер. Решение данной задачи позволит:

• значительно облегчить процесс построения систем автоматического распознавания речи за счет автоматизации затратной операции ручного транскрибирования речевых баз;

• осуществить возможность более детального акустического анализа голоса диктора за счет выделения схожих подобластей признакового пространства у различных дикторов;

• улучшить точность существующих систем верификации голоса на основе ключевых слов и фраз, использующих эргодические скрытые марковские цепи [13][14].



<< предыдущая страница   следующая страница >>