共振峰,原音共振峰与舌位有什么关系

时间：2023-10-27 21:13:17编辑：小蔡

1，原音共振峰与舌位有什么关系

人类说话或唱歌产生的声音包含许多不同的频率，共振峰是这些频率中较有意义的部份。定义上，人类若想分辨几个不同的元音，我们所需要的资讯是完全可以被量化的。共振峰是使听者能够区分元音的关键泛音。大部份的这些共振峰是由管内或腔体的共振产生，but a few whistle tones derive from periodic collapse of 文丘里效应 low-pressure zone.频率最低的共振峰频率称为f1，第二低的是f2，而第三低的是f3。绝大多部分的情形是，前两个共振峰，f1 和 f2就足以划分不同元音。这两个共振峰可以描述元音的开／闭、前／后两个维度（过去传统上把这和舌头的位置联结在一起，不过这不是完全精确）。因此开元音（例如[a]）有比较高的第一共振峰频率f1，而闭元音（例如 [i] 或 [u]）的则比较低；前元音（例如[i]）的第二共振峰频率f2较高，后元音（例如[u]）的则比较低。[2][3]元音几乎都有四个以上的共振峰，有时还会超过六个。然而，前两个共振峰还是最关键的。通常我们会用第一共振峰对第二共振峰的关系图描述不同元音的性质。[4] 但这不足以描述某些元音的性质，例如圆唇与否。[5]
鼻音通常在2500Hz附近会有额外的共振峰。流音[l]则通常在1500Hz附近会有额外的共振峰。而英语的"r"音（[ɹ]）则是用非常低的第三共振峰分辨（低于2000Hz）。
塞音（在某种程度上，擦音也是）会改变周围元音的共振峰位置。双唇音（例如“ball”和“sap”中的“b”和“p”）使共振峰降低；软腭音（英文的'k'和'g'）发音之前f2 和 f3几乎都会互相接近，在软腭音结束后才再分开。齿龈音所造成的共振峰变化则比较不规律，部份视元音种类而定。这种元音共振峰频率随时间的变化称为“共振峰转变”（formant transition）。

2，法律共振峰的解释

意大利比较法学家萨科(R．Sacco)在其《比较法导论》1992年第五版中提出了一个他命名为“法律共振峰”(Legal formants)的学说。“共振峰”一词引自语音学，指声腔的共振频率。“法律共振峰”即指影响法律的各种成分。他认为人们往往讲法律是一种规则，但事实上，法律不仅由制定法规则、判例和法学家论述构成，而且还由立法者、法官、法学家所作出的各种非行为规则(如法律解释等)构成。再有，同一国家或不同国家的这些成分往往是可变的，不协调的。

3，语音合成的共振峰

语音合成的理论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下，声波经谐振腔（声道），由嘴或鼻辐射声波。因此，声道参数、声道谐振特性一直是研究的重点。习惯上，把声道传输频率响应上的极点称之为共振峰，而语音的共振峰频率（极点频率）的分布特性决定着该语音的音色。音色各异的语音具有不同的共振峰模式，因此，以每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性（频率响应），对激励源发出的信号进行调制，再经过辐射模型就可以得到合成语音。这就是共振峰合成技术的基本原理。基于共振峰的理论有以下三种实用模型。在级联型共振峰合成模型中，共振峰滤波器首尾相接；而在并联型模型中，输入信号先分别通过幅度调节再加到每一个共振峰滤波器上，然后将各路的输出叠加起来。将两者比较，对于合成声源位于声道末端的语音（大多数的元音），级联型合乎语音产生的声学理论，并且无需为每一个滤波器分设幅度调节；而对于合成声源位于声道中间的语音（大多数清擦音和塞音），并联型则比较合适，但是其幅度调节很复杂。基于此种考虑，人们将两者结合在一起，提出了混和型共振峰模型。共振峰模型是基于对声道的一种比较准确的模拟，因而可以合成出自然度比较高的语音，另外由于共振峰参数有着明确的物理意义，直接对应于声道参数，因此，可以容易利用共振峰描述自然语流中的各种现象，并且总结声学规则，最终用于共振峰合成系统。但是，人们同时也发现该技术有明显的弱点。首先由于它是建立在对声道的模拟上，因此，对于声道模型的不精确势必会影响其合成质量。另外，实际工作表明，共振峰模型虽然描述了语音中最基本最主要的部分，但并不能表征影响语音自然度的其他许多细微的语音成分，从而影响了合成语音的自然度。另外，共振峰合成器控制十分复杂，对于一个好的合成器来说，其控制参数往往达到几十个，实现起来十分困难。基于这些原因，研究者继续寻求和发现其他新的合成技术。人们从波形的直接录制和播放得到启发，提出了基于波形拼接的合成技术，LPC合成技术和PSOLA合成技术是其中的代表。与共振峰合成技术不同，波形拼接合成是基于对录制的合成基元的波形进行拼接，而不是基于对发声过程的模拟。

4，驻波共振原理

驻波共振原理是当一束波在腔体传播时(腔长为半波长的整数倍则会产生驻波)，入射波被腔体反射发生半波损失(相位反转)变成反射波，二者在腔体发生叠加，振幅变为原来的2倍。在实践中一般是利用了波的反射。比如说弦上的驻波，当声波传播到固定端时会发生反射，反射波与入射波传播方向相反，振幅和频率都相同。因此，入射波和反射波的叠加形成驻波。对于管中的驻波，当声波传播到闭口端时同样发生反射，入射波和反射波叠加形成驻波。由于弦的固定端和管的闭口端相当于波在传输过程中遇到的障碍物，因此对于波在弦的固定端和管的闭口端发生反射是比较容易接受的。然而，对于管中的驻波，还有另外一种情况是两端开口的管中形成的驻波。这样一来，驻波的形成原理解释为波源在一个开口端发生振动产生入射波。入射波传播到另一个开口端时发生反射，入射波和反射波叠加形成驻波。扩展资料当波面处于最高和最低位置时，质点的水平速度为零，波面的升降速度也为零；当波面处于水平位置时，流速的绝对值最大，波面的升降也最快，这是驻波运动独有的特性。特点：①电压和电流不但在时间上相差90°。在空间上也相差90°；②平均功率为零，因此不能用来输送电磁能；③具有位置不随时间而变化的波腹和波节，相邻波节波腹之间的距离为λ/2④输入阻抗为纯虚数，阻值随传输线长度而变化。参考资料来源：百度百科-驻波

5，语音合成的TTS结构

自八十年代末期至今，语言合成技术又有了新的进展，特别是基音同步叠加（PSOLA）方法的提出（1990），使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初，基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高，并且基于PSOLA方法的合成器结构简单易于实时实现，有很大的商用前景。国内的汉语语音合成研究起步较晚些，但从八十年代初就基本上与国际上研究同步发展。大致也经历了共振峰合成、LPC合成至应用PSOLA技术的过程。在国家863计划，国家自然科学基金委，国家攻关计划，中国科学院有关项目等支持下，联想佳音（1995）；清华大学的TH_SPEECH (1993)；中国科技大学的KDTALK（1995）等系统。这些系统基本上都是采用基于PSOLA方法的时域波形拼接技术，其合成汉语普通话的可懂度、清晰度达到了很高的水平。然而同国外其它语种的文语转换系统一样，这些系统合成的句子及篇章语音机器味较浓，其自然度还不能达到用户可广泛接受的程度，从而制约了这项技术的大规模进入市场。

6，哪位大神帮小弟写一段MATLAB提取语音信号共振峰程序

function [fmt] = seekfmts1(sig,Nt,fs,Nlpc)
if nargin<4, Nlpc = round(fs/1000)+2; end;
ls=length(sig); % 数据长度
Nwin = floor(ls/Nt); % 帧长

for m=1:Nt,
lpcsig = sig((Nwin*(m-1)+1):min([(Nwin*m) ls]));% 取来一帧信号

if ~isempty(lpcsig),
a = lpc(lpcsig,Nlpc); % 计算LPC系数
const=fs/(2*pi); % 常数
rts=roots(a); % 求根
k=1; % 初始化
yf = [];
bandw=[];
for i=1:length(a)-1
re=real(rts(i)); % 取根之实部
im=imag(rts(i)); % 取根之虚部
formn=const*atan2(im,re); % 计算共振峰频率
bw=-2*const*log(abs(rts(i))); % 计算带宽

if formn>150 & bw <700 & formn<fs/2 % 满足条件方能成共振峰和带宽
yf(k)=formn;
bandw(k)=bw;
k=k+1;
end
end

[y, ind]=sort(yf); % 排序
bw=bandw(ind);
F = [NaN NaN NaN]; % 初始化
F(1:min(3,length(y))) = y(1:min(3,length(y))); % 输出最多三个
F = F(:); % 按列输出
fmt(:,m)=F/(fs/2); % 归一化频率
end;
end;

from 《matlab在语音信号分析与合成中的应用》

上一篇：失落的城市,桌游吧的建议游戏

下一篇：白羊双子