Разработка программного канального вокодера

Автор работы: Пользователь скрыл имя, 21 Октября 2013 в 11:05, курсовая работа

Краткое описание

В настоящее время, с развитием вычислительной техники, стоимость сигнальных процессоров довольно не велика и постоянно уменьшается, при этом увеличивается производительность вновь выпускаемых моделей процессоров. При этом стоимость каналов связи остается на достаточно высоком уровне, так как создание современных цифровых каналов связи требует значительных капиталовложений, а существующие аналоговые линии связи не выдерживают возрастающей нагрузки. Поэтому разработка систем сжатия речевых сигналов, с целью передачи их по каналам связи, является одной из актуальных задач современности.

Вложенные файлы: 1 файл

КП Разработка программного канального вокодера.rtf

— 1,005.64 Кб (Скачать файл)

Министерство Образования и Науки Украины

 

 

 

 

 

 

Курсовой проект

 

На тему: «Разработка программного канального вокодера»

по курсу «Цифровая обработка сигналов»

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2006

 

АННОТАЦИЯ

 

В данном проекте описан процесс создания канального вокодера. Описана программа на языке Matlab, модель, созданная с помощью системы Matlab Simulink, а так же программа на DSK TMS320C6711(5402), использующая возможности CODE COMPOSER STUDIO v.2, осуществляющая сжатие и восстановление речевого сигнала в реальном времени до уровня не более 4800 бит/с с удовлетворительным качеством восстановленного речевого сигнала (требуется обеспечить разборчивость речи, при этом узнаваемость диктора не обязательна).

 

На защиту студент представляет:

- пояснительную записку;

- электронную презентацию проекта в виде файла формата .ppt, .pdf или .ps;

- полностью отлаженное программное обеспечение.

Пояснительная записка должна выполняться в соответствии с требованиями действующих стандартов и содержать следующие разделы:

- введение;

- обзор существующих систем и методов решения задачи в соответствии с темой курсового проекта;

- обоснование метода решения задачи;

- разработка структурной схемы системы и расчет необходимых системных параметров;

- разработка программной модели системы на языке МАТЛАБ;

- результаты тестирования модели системы;

- разработка программного обеспечения системы на языке Си для реализации ее на цифровом сигнальном процессоре;

- анализ вычислительной сложности;

- анализ результатов реализации системы в реальном времени на цифровом сигнальном процессоре;

- краткое руководство пользователя;

- заключение;

- библиографический список;

- приложения:

- тексты программ на языке МАТЛАБ;

- тексты программ на языке Си.

 

ВВЕДЕНИЕ

 

В настоящее время, с развитием вычислительной техники, стоимость сигнальных процессоров довольно не велика и постоянно уменьшается, при этом увеличивается производительность вновь выпускаемых моделей процессоров. При этом стоимость каналов связи остается на достаточно высоком уровне, так как создание современных цифровых каналов связи требует значительных капиталовложений, а существующие аналоговые линии связи не выдерживают возрастающей нагрузки. Поэтому разработка систем сжатия речевых сигналов, с целью передачи их по каналам связи, является одной из актуальных задач современности.

Вокодер (от англ. voice -- голос, coder -- кодировщик) представляет собой электронное устройство, предназначенное для анализа и синтеза звуков человеческого голоса.

Впервые вокодером был назван изобретенный в 1936 году американским инженером Гомером Дадлеем аппарат, сужающий полосу частот, требуемую для передачи речевого сигнала по каналам связи. В последующие десятилетия появилось множество разновидностей вокодера, применяемых в системах связи. В них передается не сама речь, а определенные параметры речевого сигнала, по которым его затем можно восстановить в месте приема. Широко применяют вокодер в акустических исследованиях, при обучении иностранным языкам, в речевой терапии.

Первый раздел пояснительной записки посвящен обзору существующих систем и методов построения сжатие речи с помощью канальных вокодеров обоснование метода решения данной задачи.

Во втором разделе КП разработка структурной схемы системы и расчет необходимых системных параметров для построения канального вокодера;

Разработка программной модели системы на языке Matlab и результаты тестирования модели системы приведены в третьем разделе.

В четвертом разделе описан процесс разработки программного обеспечения проектируемой системы канального вокодера на языке Си для реализации ее на цифровом сигнальном процессоре.

В пятом разделе произведен анализ вычислительной сложности, разработанной системы сжатия речи, а так же анализ результатов реализации данной системы в реальном времени на цифровом сигнальном процессоре, и краткое руководство пользователя системы сжатия.

В приложениях приводятся тексты разработанных программ на языке МАТЛАБ и Си.

 

ПОСТАНОВКА ЗАДАЧИ НА ПРОЕКТИРОВАНИЕ

 

Разработать и реализовать на ЦПОС TMS320C6711(5402) систему сжатия речи (рекомендуется реализовать канальный вокодер), осуществляющую сжатие и восстановление речевого сигнала в реальном времени до уровня не более 4800 бит/с. Считать, что исходный речевой сигнал представлен в виде последовательности 16-разрядных отсчетов c частотой дискретизации 8КГц. Необходимо обеспечить удовлетворительное качество восстановленного речевого сигнала (требуется обеспечить разборчивость речи, при этом узнаваемость диктора не обязательна).

 

1. СИСТЕМЫ СЖАТИЯ РЕЧИ

 

Голосовой тракт человека представляет собой акустическую трубу, которая с одной стороны оканчивается голосовыми связками, а с другой губами. Форма голосового тракта определяется положением губ, челюстей языка и мягкого неба.

Звуки в этой системе образуются тремя способами. Вокализованные (звонкие) звуки - путем возбуждения голосового тракта квазипериодическими импульсами воздушного давления, создаваемыми вибрациями голосовых связок. Фрикативные звуки образуются проталкиванием воздуха через сужения в определенных областях голосового тракта, в результате чего возникает турбуленция, которая является источником шума, возбуждающего голосовой тракт. Взрывные звуки образуются путем создания избыточного давления в области полного смыкания голосового тракта с последующим его быстрым размыканием. Все эти источники создают широкополосное возбуждение голосового тракта, который в свою очередь действует как линейный фильтр с изменяющимися во времени параметрами.

На рис. 14 приведена модель источника речи на основе цифрового представления речевых сигналов. Предполагается, что в этой модели дискретные отсчеты речевого сигнала формируются на выходе ЦФ с переменными параметрами, который аппроксимирует передаточные свойства голосового тракта, обусловленные формой импульсов возбуждения.

 

 

 

 

 

Рисунок 14 - Модель источника речи

 

На временном интервале порядка 10ms характеристики ЦФ можно считать неизменными. На каждом таком интервале ЦФ может быть охарактеризован совокупностью своих коэффициентов. В случае вокализованной речи ЦФ возбуждается генератором квазиканонической импульсной последовательности, расстояние между соседними импульсами которого соответствует периоду основного тона. На интервалах невокализованной речи ЦФ возбуждается генератором случайных чисел, который вырабатывает шумовой сигнал с равномерной спектральной плотностью. В обоих случаях сигнал, поступивший на ЦФ, управляется по амплитуде.

На рассмотренной модели базируются многочисленные способы представления речевых сигналов. По сложности реализации эти способы кодирования речи занимают широкий диапазон от простейшей периодической дискретизации до оценок параметров модели изображенной на рис.14.

Существует несколько подходов к сжатию речевых сигналов:

- кодирование формы волны речевого сигнала;

- кодирование параметров речевого тракта человека и источника возбуждения;

- кодирование символьной информации (фонем);

- кодирование лингвистической информации (слов, фраз и т.п.).

1.1 Непосредственное кодирование формы речевого сигнала

 

Исходный речевой сигнал представляет собой акустическую волну (волна давления в воздухе), которую можно преобразовать в электрический сигнал с помощью микрофона. Будем считать, что спектр речевого сигнала лежит в диапазоне от 100 до 4000 гц. Динамический диапазон изменения амплитуды, достаточный для описания речевых сигналов, составляет 12 двоичных разрядов.

Первым шагом, обеспечивающим сжатие речевого сигнала, является попытка обеспечения равномерной относительной точности измерения значения амплитуды сигнала. Для этого 14-12-ти разрядный динамический диапазон амплитуды разбивают на 8 логарифмических поддиапазонов, в каждом из которых значение амплитуды кодируют 5 разрядами и, таким образом, достигают сокращения информации до 64000 бит/с (кодирование по m- и A- законам в соответствии со стандартом ITU -G.711). Следующим шагом является адаптивная дифференциальная импульсно-кодовая модуляция (АДИКМ), (например, в соответствии со стандартами G.721 или G.726 8-40000 бит/с), с помощью которой осуществляют кодирование (аппроксимацию) степени приращения амплитуды сигнала во времени. Таким путем удается достичь степени сжатия речевого сигнала порядка 32000-16000 бит/сек., причем приемлемое (коммерческое) качество речи (по критерию отношения: полезный_сигнал/шум) обеспечивается до 24000 бит/сек. При более низких скоростях кодирования сохраняется разборчивость речи, но характерны сильные нелинейные и частотные искажения сигнала и ухудшение отношения сигнал/шум. Дальнейшее уменьшение информационной емкости сигнала с помощью данного подхода считается неэффективным.

 

1.1.2. Параметрическое кодирование

Низкоскоростное кодирование складывается из двух основных процессов:

- параметрическое представление речевого сигнала минимальным набором параметров, характеризующих источник возбуждения и акустический фильтр, определяющий передаточную функцию голосового тракта;

- дискретизация речевых параметров для их передачи по каналу связи при использовании минимальной емкости канала.

Для параметрического описания речи обычно используется подход, основанный на вычислении параметров, описывающих передаточную функцию речевого тракта человека и функцию возбуждения. Такими параметрами могут являться: осредненные значения энергии речевого сигнала, разбитого на ряд частотных полос, или коэффициенты линейного предсказания (или, связанные с ними, коэффициенты отражения). Обычно для кодирования речи используются 8-10 параметров (один из вышеперечисленных наборов), вычисляемых на интервалах порядка 5-30 мс (так как на таком интервале речь может считаться стационарным процессом), кроме того, вычисляется параметр, характеризующий изменение амплитуды либо мощности сигнала, период основного тона речи, а также признак типа тон/шум/пауза, характеризующий способ возбуждения речевого сигнала.

Полученный набор параметров, оптимизированный по критерию точности и минимальной разрядности представления, передается в цифровом виде по каналу связи в реальном времени, а на приемном конце осуществляется синтез речевого сигнала по перечисленным параметрам. Таким путем удается снизить информационную емкость речевого сигнала до уровня 16000 - 1200 бит/сек, причем с сохранением разборчивости и индивидуальных особенностей речи говорящего.

 

1.1.3. Другие способы кодирования

Следующим шагом в направлении дальнейшего увеличения компрессии является создание фонемного вокодера. Как известно, минимальной слогоразличительной (и словоразличительной) единицей речи является фонема. Поэтому создание устойчивого метода распознавания фонем позволит снизить скорость кодирования речевой информации до 100 бит/сек, что соответствует информационной скорости текста. Следует отметить, что на приемной стороне речь будет восстановлена синтезатором речи по фонемному тексту, при этом информация об индивидуальности диктора будет утрачена.

1.2. Канальные вокодеры

 

Канальный вокодер представляет собой совокупность двух основных частей - анализирующей (передающая сторона) и синтезирующей(приемная), которые содержат идентичные наборы(гребенки) полосовых фильтров, перекрывающих определенный частотный интервал. Структура канального вокодера представлена на рисунке 9.1:

 

Рисунок 9.1 - Структурная схема канального вокодера

Рисунок 9.2 - АЧХ гребенки фильтров

 

Фильтры блока анализа обеспечивают тональное разделение спектра сигнала. Для перекрытия всей полосы звуковых частот, наряду с полосовыми, в гребенке используют фильтры НЧ и ВЧ (в самых низкочастотном и высокочастотном каналах). Типовая амплитудно-частотная характеристика гребенки фильтров, в случае равномерного разделения каналов может иметь следующий вид:

Детектор и фильтр НЧ в каждом канале выделяют огибающую сигнала данного канала, и каждая из них характеризует энергию речевого спектра в соответствующей полосе частот для фрагмента речи (длина фрагмента 5-30 мс). Для более компактной передачи выходы каждого из каналов могут логарифмироваться и кодироваться с помощью дельта импульсной кодовой модуляции(ДИКМ)[1].

От числа частотных полос зависит разборчивость синтезированной речи. Хорошие результаты получаются при числе каналов 15-16 (полоса 100 Гц... 4 кГц). Для улучшения качества восстановленной речи при выборе центральных частот и ширины полос пропускания канальных фильтров целесообразно использовать критические полосы слуха[1].

При выборе типа фильтров необходимо иметь в виду, что спектральные составляющие сигнала вблизи центральной частоты резонансных фильтров подвергаются существенным фазовым сдвигам, а это приводит к изменению тембра, даже если амплитудные соотношения сохранены. Причем при увеличении порядка фильтров фазовый сдвиг увеличивается, являясь причиной характерной для вокодера неестественности речи. С другой стороны, при недостаточной крутизне спада АЧХ фильтров появляется “смазанность” синтезированной речи. Практика показывает, что оптимальный результат соответствует АЧХ фильтров при крутизне их спада примерно 36 дБ на октаву.

Частоту среза канального фильтра НЧ выбирают в десять раз меньшей центральной частоты полосового фильтра канала, однако возможно использование одинаковых фильтров низких частот с частотой среза около 25 Гц, что несколько снижает качество восстановленного речевого сигнала.

Кроме оценки энергии сигнала в частотных полосах, в блоке анализа также производится оценка характера речевого фрагмента. В детекторе тон/шум(Т-Ш) оценивается: вокализованным или фрикативным является данный фрагмент речевого сигнала. Такой детектор может быть реализован через определение числа переходов через ноль речевого сигнала (для вокализованных фрагментов в отличие от фрикативных число переходов через ноль невелико) или оценкой энергии сигнала в полосах до 800 Гц и более 2КГц (структурная схема такого детектора представлена на рисунке 9.3).

Информация о работе Разработка программного канального вокодера