Курс лекций состоит из четырёх частей:
В первой части на примере Матлаба изучаются современные средства создания интерактивной среды пользователя в виде графического интерфейса. Студенты знакомятся с объектно-ориентированным программированием и сами создают простейшие интерфейсы из объектов. Затем они изучают среду GUIDE и самостоятельно пишут программы сложных интерфейсов. Целью этого раздела курса является умение создать графический интерфейс для обработки звукового сигнала с разными типами разметок и вызываемых функций.
Вторая часть содержит простейшие сведения теории распознавания образов и программные средства статистики на языке Матлаб, включая нейронные сети. При помощи кластерного анализа и нейронных сетей студенты самостоятельно пишут программы распознавания некоторых синтагм и аллофонов.
Третья часть содержит описание современного вычислительного метода оценки спектральной огибающей, основанного на кепстрах. Даётся определение, разъясняется назначение этого понятия. Выводится математическая связь с коэффициентами линейного предсказания. Сообщаются основные методы оценивания кепстров и их применение в спектральном синтезе речи. Студенты применяют программу расчёта кепстров для автоматической сегментации речевого сигнала.
В четвёртой части описывается проблема синтеза речевого сигнала по моделям соседних фрагментов. Представлены алгоритмы и программы стыковки голосовых и неголосовых фрагментов. Вместе с методами спектрального анализа сигнала, изученными в курсе «Цифровая обработка речевого сигнала», алгоритмы и программы на языке Matlab составляют полный спектральный вокодер. Студентам предлагается самостоятельно записать, закодировать и восстановить речевой сигнал разной сложности.
Объектно-ориентированное программирование рисунков и фигур Матлаба.
Средства создания графиков и рисунков в окне Figures.
Команда subplot и подписи к графикам.
Свойства графика и меню редактора свойств.
Объектно-ориентированная среда графического интерфейса GUI. Типы GUI.
Окружение GUIDE для разработки графических интерфейсов.
Программирование графического интерфейса.
Понятие распознавания образов. Тренировочная, тестовая последовательности.
Признаки. Пространство признаков. Разделяющие поверхности и правила.
Распознавание речи. Форманты как признаки.
Структура нейронной сети.
Пакет программ NNET по нейронным сетям на Матлабе.
Функции настройки сети NETinout и train_any_net.
Анализ данных и программа устранение выбросов.
Программа разделения кластеров методами первого и второго порядка.
Связь формант с корнями многочлена с коэффициентами линейного предсказания.
Простейшее распознавание речевого сигнала по формантным признакам.
Решающее правило в задаче распознавания аллофонов. Алгоритм распознавания и его реализация.
Логарифмическая модель спектральной огибающей. Разложение Тейлора и определение кепстра.
Оценивание кепстра по максимуму правдоподобия.
Воспроизведение звуков по их кепстрам.
Мел-кепстральные коэффициенты. Замена переменной на внутреннюю функцию в круге.
Программа полного спектрального декодера.
Программа произвольного изменения интонации по параметрической модели речевого сигнала.
Параметрические модели стационарных звонких и глухих звуков.
Полное восстановление речевого сигнала по параметрической модели.
Случайный стационарный процесс. Воспроизведение глухих звуков.
Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М. Радио и связь. 1981.
Фомин В.Н. Математическая теории обучаемых и опознающих систем. Л. изд-во ЛГУ. 1976.
Стандарты GSM.
Алдошина И.А., Приттс Р. Музыкальная акустика. Учебник для вузов. СПб. 2006.