从声纹这三个维度看声纹鉴定究竟靠不靠谱!

更新:2019-05-10, 浏览:246

随着科技的进步,指纹、虹膜、人脸识别,声纹等越来越多的生物识别技术开始在消费市场中被应用。究竟,这个看不见摸不着的声纹有啥讲究的呢?

其实,就像指纹一样,我们每个人的声音也都有“纹路”上的差别。为了方便讲解,按照声音信息的长短分成了以下三个维度去讨论:音节、语音句子和语音段落。

01音节维度

在我们说话的过程中,语音信号会随发音的不同而不停变化。为了想要研究声纹中不变的特征,我们就不得不把声音信号截取得尽可能短一些。一般情况,20-30毫秒长度的语音信号就可被假定为一个稳定的信号来看待。

然后,通过研究这个短时间信号的频谱及频谱包络,我们就可以提取到关于很多的声纹特征。

从声纹这三个维度看声纹鉴定究竟靠不靠谱!

说到这里,我们就得稍微了解一下人是怎么发出声音的。

实际上,咱们之所以能发声要归功于我们的“呼吸”作用。

空气从肺部经过气管来到喉部,在声带(Vocal Folds)处产生振动,从而产生声波,并最终经过咽部、口腔传出。

从声纹这三个维度看声纹鉴定究竟靠不靠谱!

在此过程中,我们的声带起到了至关重要的作用。如上两幅喉咙俯视图所示,声带既可以作为阀门控制通气与否,又可以作为振源振动产生声音。

而具体到每个人身上,发声的差异则是由声带的形状、声道的长度和尺寸、口腔的空间、牙齿舌头的位置等等因素导致。

从声纹这三个维度看声纹鉴定究竟靠不靠谱!

本质上看,我们每个人的说话声都是复杂声波,是由一系列不同频率的声波叠加而成的。为了方便理解,我们可以把它当作是一个基频加上各种谐波的组合。而在声纹的识别过程中,最关键的往往就是识别出每个人自带的基频F0。

从声纹这三个维度看声纹鉴定究竟靠不靠谱!


02句子维度

前面我们研究了20-30毫秒的声音,那么如果把长度延长一些会怎么样呢?

当语音信息达到了句子的长度时,声音在韵律上的不同就凸显了出来:对于同一句话的表达,每个人会都有自己的声调、重音、停顿、语速等不同的呈现。

从声纹这三个维度看声纹鉴定究竟靠不靠谱!

通过对调制频率的研究,这一部分的声纹特性也可以被刻画出来。但需要注意的是,针对这部分的特性信息比之前音节的会更难被采集提取,所以将需要更多的数据支撑。

不仅如此,它对于文本本身及语言种类的依赖性也更强。

03段落维度

研究完韵律,我们再把研究范围扩大一些,变到语音段的大层面。

这时候,各地口音、同一个意思不同的选词构句、某些词的特定发音,甚至是通过哪种设备进行的语音表述,都会变成重点研究对象。比如,你用手机录音和自己直接的说话声其实就有差异。

这些特征和声音主人天生的物理特征关系不大,主要跟人的生活环境、受教育程度、个人性格特点、家庭环境有关。虽然关于它们的分析,需要比刚才更多的数据,但这种因素鲁棒性其实最高。因为它最不容易受到环境噪声和通道的影响。

从声纹这三个维度看声纹鉴定究竟靠不靠谱!

随着声纹识别的精细化,机器模仿人声的技术也在一起进步。类似柯南的蝴蝶结变声器的产品一定会在未来层出不穷,并且能把不同人声音的各种细节都模仿得惟妙惟肖。

从声纹这三个维度看声纹鉴定究竟靠不靠谱!

以上便是声纹的三个维度介绍,你认为声纹鉴定究竟靠不靠谱呢?

新闻中心