СПбГУ

Санкт-Петербургский государственный университет
Математико-механический факультет
Кафедра теоретической кибернетики



Автоматическая обработка данных и пакеты программ
Automatic data analysis and program tools



Аннотация


Курс лекций состоит из четырёх частей:

  1. разработка графического интерфейса;
  2. распознавание образов и нейронные сети;
  3. кепстры;
  4. параметрический вокодер.

В первой части на примере Матлаба изучаются современные средства создания интерактивной среды пользователя в виде графического интерфейса. Студенты знакомятся с объектно-ориентированным программированием и сами создают простейшие интерфейсы из объектов. Затем они изучают среду GUIDE и самостоятельно пишут программы сложных интерфейсов. Целью этого раздела курса является умение создать графический интерфейс для обработки звукового сигнала с разными типами разметок и вызываемых функций.

Вторая часть содержит простейшие сведения теории распознавания образов и программные средства статистики на языке Матлаб, включая нейронные сети. При помощи кластерного анализа и нейронных сетей студенты самостоятельно пишут программы распознавания некоторых синтагм и аллофонов.

Третья часть содержит описание современного вычислительного метода оценки спектральной огибающей, основанного на кепстрах. Даётся определение, разъясняется назначение этого понятия. Выводится математическая связь с коэффициентами линейного предсказания. Сообщаются основные методы оценивания кепстров и их применение в спектральном синтезе речи. Студенты применяют программу расчёта кепстров для автоматической сегментации речевого сигнала.

В четвёртой части описывается проблема синтеза речевого сигнала по моделям соседних фрагментов. Представлены алгоритмы и программы стыковки голосовых и неголосовых фрагментов. Вместе с методами спектрального анализа сигнала, изученными в курсе «Цифровая обработка речевого сигнала», алгоритмы и программы на языке Matlab составляют полный спектральный вокодер. Студентам предлагается самостоятельно записать, закодировать и восстановить речевой сигнал разной сложности.



Примерный список вопросов на экзамене:


Графический интерфейс

  1. Объектно-ориентированное программирование рисунков и фигур Матлаба.

  2. Средства создания графиков и рисунков в окне Figures.

  3. Команда subplot и подписи к графикам.

  4. Свойства графика и меню редактора свойств.

  5. Объектно-ориентированная среда графического интерфейса GUI. Типы GUI.

  6. Окружение GUIDE для разработки графических интерфейсов.

  7. Программирование графического интерфейса.

Распознавание образов и нейронные сети

  1. Понятие распознавания образов. Тренировочная, тестовая последовательности.

  2. Признаки. Пространство признаков. Разделяющие поверхности и правила.

  3. Распознавание речи. Форманты как признаки.

  4. Структура нейронной сети.

  5. Пакет программ NNET по нейронным сетям на Матлабе.

  6. Функции настройки сети NETinout и train_any_net.

  7. Анализ данных и программа устранение выбросов.

  8. Программа разделения кластеров методами первого и второго порядка.

  9. Связь формант с корнями многочлена с коэффициентами линейного предсказания.

  10. Простейшее распознавание речевого сигнала по формантным признакам.

  11. Решающее правило в задаче распознавания аллофонов. Алгоритм распознавания и его реализация.

Кепстры

  1. Логарифмическая модель спектральной огибающей. Разложение Тейлора и определение кепстра.

  2. Оценивание кепстра по максимуму правдоподобия.

  3. Воспроизведение звуков по их кепстрам.

  4. Мел-кепстральные коэффициенты. Замена переменной на внутреннюю функцию в круге.

Параметрический вокодер

  1. Программа полного спектрального декодера.

  2. Программа произвольного изменения интонации по параметрической модели речевого сигнала.

  3. Параметрические модели стационарных звонких и глухих звуков.

  4. Полное восстановление речевого сигнала по параметрической модели.

  5. Случайный стационарный процесс. Воспроизведение глухих звуков.



Литература


Список обязательной литературы

  1. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М. Радио и связь. 1981.


Список дополнительной литературы

  1. Фомин В.Н. Математическая теории обучаемых и опознающих систем. Л. изд-во ЛГУ. 1976.

  2. Стандарты GSM.

  3. Алдошина И.А., Приттс Р. Музыкальная акустика. Учебник для вузов. СПб. 2006.



Нормативные документы


РПУД

  1. 2013 год, формат: xls





Диссертации
докторов
кандидатов

Дипломные работы
магистров
специалистов
бакалавров

Курсовые работы
студентов

Кафедра теоретической кибернетики СПбГУ
Университетский пр-кт, дом 28, к.3343–3356
Санкт-Петербург, 198504, Россия
Телефон: +7 (812) 428-41-48
Факс: +7 (812) 428-69-98


© Коллектив кафедры теоретической кибернетики СПбГУ, 2012–2017