Tuesday, July 8, 2008

maskovacím prahem,
Takové signály proto není třeba
uvažovat a tedy ani přenášet, neboť
na přijímací straně by stejně nebyly
posluchačem vnímány. Průběhy
křivek maskovacích prahů byly
získány na základě výsledků testů
prováděných na velkém počtu
posluchačů (psychologická
akustika). Maskovací práh se také
nazývá práh právě pozorovatelného zkreslení JND (Just Noticeable Distortion). Odstup
maskovacího signálu od úrovně jím vytvořeného maskovacího prahu na určitém kmitočtu se
označuje jako poměr signál – maskování SMR (Signal to Mask Ratio).
Poněvadž průběhy maskovacích prahů jsou závislé na kmitočtu, je výhodné
zpracovávat akustický signál odděleně v dílčích kmitočtových pásmech neboli subpásmech –
subpásmové kódování SBC (SubBand Coding), obvykle stejné šířky pásma,
Podle nejsilnějších složek zvukového signálu a jím odpovídajícím
průběhům maskovacích prahů, lze stanovit pro každé subpásmo maximální úroveň
kvantizačního šumu (obecně maskovaného signálu), který bude užitečným (obecně
maskujícím) signálem maskován a z ní určit počet bitů potřebných pro kvantování signálu.
Tím se dosáhne výrazné redukce přenosové rychlosti signálu, aniž by se na přijímací straně
zhoršila subjektivně vnímaná kvalita reprodukovaného zvuku. Při přenosu reálného signálu,
který své spektrum s časem mění, je třeba v krátkých časových intervalech signál neustále
analyzovat a inovovat úrovně kvantizačního šumu v každém subpásmu. To má za následek
změnu počtu bitů pro kvantování signálu v každém subpásmu a tím i změnu výsledné
přenosové rychlosti signálu. Časové intervaly jsou voleny tak, aby se využilo i maskovacího
efektu lidského sluchu v časové oblasti. Uvedené jevy a principy se využívají v následujících
systémech zdrojového kódování akustických signálů.

Monday, June 23, 2008

a) Křivky současné slyšitelnosti při maskování jednotlivých kmitočtů
úzkopásmovým šumem s šířkou pásma 160 Hz, konstantní hladinou a třemi
středními kmitočty
b) Závislost maskování jednotlivých kmitočtů na amplitudě maskujícího
úzkopásmového šumu [13]
24 Rádiové a mobilní komunikace
zvuku T sinusového průběhu o určité akustické hladině T L maskována silnějším
úzkopásmovým šumem určité hladiny Š L , se nazývají prahy současné slyšitelnosti. Průběhy
prahů slyšitelnosti závisí na kmitočtu, hladině akustického tlaku a spektrálním složení zvuku,
jak ukazují obr. 2.6.b,c (maskování v kmitočtové oblasti - simultánní maskování). Maskovací
jev však nastává i v případě, kdy maskovaný krátkodobý signál určité hladiny přichází až po
ukončení maskujícího signálu vyšší hladiny, v době do 10 ms. Při delším intervalu než 10 ms
maskování slábne a při intervalu 200 ms již zcela zaniká. Maskován může být rovněž krátký
zvukový impuls, následuje-li po něm nejdéle do 5 ms maskující signál (maskování v časové
oblasti – nesimultánní maskování).
Při zdrojovém kódování
akustických signálů se využívá
opačného jevu, při němž určitý
sinusový signál daného kmitočtu a
hladiny maskuje všechny ostatní
signály včetně šumu a rušení, jejichž
kmitočet a úroveň leží pod

Thursday, June 19, 2008

Zdrojové kódování akustických signálů
Používá se při kódování kvalitních akustických signálů v kmitočtovém rozsahu cca 10
Hz až 20 kHz. Využívá maskovacího jevu lidského sluchu, při kterém je užitečným
signálem maskován kvantizační šum.
Člověk vnímá zvuky pouze v kmitočtovém pásmu od cca 16 Hz do cca 16 kHz. Za
práh slyšitelnosti je považovaná kmitočtová závislost akustického tlaku P při níž lidský
sluch přestává vnímat sinusový akustický signál (křivky na obr. 2.6.a,b vycházející z bodů
dB L 70 ≅ ). Horní hranici akustického tlaku určuje práh bolesti (nevnímáme zvuk, ale jen
bolest). Úroveň (hladina) tlaku je dána vztahem
[ ] dB
P
P L log 20
0
= , (2.2)
kde Pa P µ 20 0 = . Při současném vnímání několika různých zvukových signálů delších než
200 ms může jeden signál potlačovat slyšitelnost jiného signálu, i když jejich kmitočty jsou
různé. Říkáme, že jej při své určité úrovni akustického tlaku maskuje (např. tikot hodin je
maskován zvukem TVP). Křivky udávající hladinu akustického tlaku, od které je slyšitelnost
a) b)

Sunday, June 15, 2008

Multiimpulzní buzení MPE (Multi Pulse Excitation) - vzájemná poloha i velikosti
budících impulzů se určují po jednom. Dosahovaná přenosová rychlost je v rozmezí 8 až
16 kbit/s.
Rádiové a mobilní komunikace 23
Regulární buzení RPE (Regular Pulse Excitation) - vzájemná poloha impulzů je přesně
stanovena. Určuje se tedy pouze poloha prvního impulzu a velikosti všech impulzů.
Dosahovaná přenosová rychlost je v rozmezí 8 až 16 kbit/s.
Kódové buzení CELP (Code Excited Linear Prediction) - jednotlivé posloupnosti
budících impulsů jsou uloženy v paměti (kódové knize). Na přijímací stranu se přenáší
pouze adresa příslušné posloupnosti. Dosahuje se přenosové rychlosti s kbit / 4 a menší,
avšak vokodéry jsou složité, [10], [12].
Poznámka: Těsně po standardizaci hovorových kodérů, dosahujících přenosových rychlostí
cca s kbit / 8 , se podařilo vyrobit rychlejší signálové procesory, jejichž použití
znamenalo snížení přenosové rychlosti kodérů na polovinu. Od té doby se
původní kodéry označují jako kodéry s plnou rychlostí FR (Full Rate) a
kodéry s novými procesory se označují jako kodéry s poloviční rychlostí HR

Monday, June 9, 2008

Hybridní zdrojové kódování

Spojují přednosti obou předchozích způsobů kódování. Výstupní hovorový signál se
opět vytváří jako odezva filtru s vhodně nastavenými parametry na budící signál, který je však
generován složitějším způsobem. Již se nerozlišují znělé a neznělé hlásky, a proto se ani
nepoužívá dvou budících (excitačních) signálů. Využívá se multiimpulzní excitace, při které
je v krátkém časovém intervalu generováno několik úzkých impulzů (např. 4 impulzy za 5
ms), jejichž velikosti a vzájemné polohy jsou určeny tak, aby rozdíl mezi signálem původním
a syntetizovaným byl minimální.
Součástí zdrojového kodéru je i dekodér (stejný jako na přijímací straně), který již na
vysílací straně vytváří syntetizovaný signál, jež se odečítá od signálu vstupního a vzniklá
chyba se minimalizuje na základě smyslového (perceptuálního) vnímání. Minimalizovaný
chybový signál se přenáší komunikačním kanálem k syntezátoru a současně se pomocí něj
nastavuje excitační generátor syntezátoru ve vysílací části. Za generátorem jsou zařazeny
v kaskádě dva filtry. U prvního, tzv. krátkodobého korelačního filtru, jsou parametry
vypočítány pouze z několika (8 až 16) předchozích predikovaných vzorků. Následující, tzv.
dlouhodobý korelační filtr, realizuje dlouhodobou predikci LTP (Long Term Prediction),
která zjemňuje hovorové spektrum. Podle způsobu buzení (minimalizace chyby) se rozlišují
následující systémy.

Sunday, June 8, 2008

Parametry jednotlivých bloků hovorového syntezátoru jsou určeny na základě analýzy
hovorového signálu mluvící osoby, která se provádí ve vysílací části vokodéru. Do přijímací
části vokodéru se tedy
komunikačním kanálem
nepřenáší hovorový
signál, ale pouze
nejdůležitější parametry
získané na základě jeho
analýzy.
Zdrojové
kódování hovorového
signálu se provádí ve
vysílací části vokodéru.
Hovorový analogový
signál je v analogověčíslicovém
převodníku
převeden na signál
digitální, přičemž jednotlivé vzorky mohou být pro potřeby následné analýzy vyjádřeny až 13 bity. Následuje
segmentování signálu, tj. jeho rozdělení na časové úseky o délce 10 až 30 ms. Po tuto dobu
lze považovat vlastnosti hlasového traktu za konstantní. Následuje proces analýzy signálu
jehož výsledkem je stanovení znělosti resp. neznělosti hlásky Z-N, periody základního tónu
hlasu 0 T , velikosti úrovně signálu G a především určení několika parametrů filtru PF
(deskriptorů) modelujícího hlasový trakt. Získané signály jsou multiplexovány a přenášeny
komunikačním kanálem k syntezátoru.

Thursday, May 22, 2008

Parametrické zdrojové kódování

Vokodéry používané pro parametrické zdrojové kódování jsou konstruovány na
základě poznatků o lidském hlasu a hlasového traktu.Srovnáním
detailních výseků časových průběhů pro samohlásku „I“ a souhlásku „S“ je vidět, že charakter
těchto signálů je zcela odlišný. Zatímco časový průběh signálu odpovídající souhlásce „S“ má
náhodný charakter a podobá se šumovému signálu, v časovém průběhu signálu u samohlásky
„I“ je vidět jistá periodicita a deterministický charakter. Lidská řeč se skládá ze znělých
hlásek (kvaziperiodický charakter signálu), neznělých hlásek (pseudonáhodný charakter
signálu) a mezer.
Jednoduchý fyziologický model hlasového traktu ,kde jsou
vyznačeny všechny lidské orgány a části lidského těla, které se podílí na tvorbě hlasu.
Základním parametrem lidského hlasu je tzv. perioda základního tónu hlasu 0 T . Její
převrácená hodnota se nazývá kmitočet základního tónu nebo také základní hlasový kmitočet
(pitch) a pohybuje se v rozmezí 50 až 400 Hz. Každý člověk má jiný základní hlasový
kmitočet jehož hodnota se může měnit i v průběhu hovoru.
Rádiové a mobilní komunikace 21
Na základě
fyziologického modelu byl
sestaven elektrický model
pro syntézu řeči, který je
základem i pro obvodové
řešení vokodérů
s lineárním prediktivním
kódováním LPC (Linear
Predictive Coding), u nichž
se zpracování signálů
provádí v časové oblasti.
Jeho jednoduché blokové
schéma je nakresleno na
Hovorový signál
se vytváří v přijímací části
vokodéru (hovorovém
syntezátoru), která se
skládá z šumového a
impulzového generátoru,
filtru, zesilovače a
reproduktoru. Na výstupu
impulzového generátoru je
impulzový signál
s opakovací periodou 0 T ,
která je typická pro mluvící
osobu. Přepínač výstupních
signálů generátorů je
nastavován podle toho, zda
je vytvářena znělá nebo
neznělá hláska. Budící (excitační) signál přichází do filtru, který v závislosti na nastavení
svých parametrů modeluje vlastnosti hlasového traktu mluvící osoby. Výstupní signál je
zesílen v zesilovači a přiveden do reproduktoru.