数字网络语言系统中的语音处理
陈平平
文章从数字语言系统的教学功能特点和技术要求出发,对系统语音处理中怎样合理地选择音频格式作出了分析。并指出为了保证系统的语音传输实时和音质保真度高,在语音交互处理时,采用未经压缩的WAV格式比较合适,但最终结果转换为已经过压缩处理的MP3格式存储比较好,因为这样,文件占用空间小,便于网上下载以及远距离传输等。在数字网络语言系统的语音处理中,语音传输延迟与语音音质失真这两项指标虽然有所提高,但仍是两个有待解决的技术难点。
一种适合于宽带语音的清浊音分类算法
Voiced/Unvoiced Classification Algorithm for Wideband Speech
吴超 杨震
提出了一种在宽带语音(50-7500Hz)中进行清浊音分类的方法,该方法通过估计和跟踪信号的高频能量和低频能量提取语音信号,并针对宽带语音的特点,用特殊的高低频谱能量比和周期性水平组合参数进行清浊音分类。算法设计了一种可以在所有语音帧更新阈值的方法,在比较复杂的背景噪声条件下仍能较准确地更新阈值,从而保证清浊音分类有效进行。仿真结果表明,本文方法能准确地对宽带语音进行分类,具有一定的抗噪声性能,且算法的复杂度较低,具有一定的实用价值。
基于音素HMM模型语音转换
Voice Conversion Using Phoneme-dependent HMMS
钱开华
通过对语音转换的研究,提出了一种把源说话人特征转换为目标说话人特征的方法。语音转换特征参数分为两类:(1)频谱特征参数;(2)基音和声调模式。分别描述信号模型和转换方法。频谱特征用基于音素的2维HMMS建模,F0轨迹用来表示基音和音调。用基音同步叠加法对基音厨期、声调和语速进行变换。
腭裂术后语音障碍特点及其综合性语言治疗
Vocal characteristics of speech disorder and efficacy of speech therapy in postoperative patients with cleft palate
丘卫红 郝元涛 万桂芳 胡昔权 温红悔 窦祖林
目的:探讨腭裂患者术后语音障碍的临床特点及综合性语言治疗的效果.
方法:于2003—06/2005—10选择中山大学附属第三医院康复科门诊就诊的腭裂术后仍存在构音障碍的患者16例为观察对象。根据中国康复研究中心版构音障碍检查法进行构音障碍检查、根据王国民编“汉语语音清晰度测试字表”进行语音清晰度评价。采用VS9700语音工作站1.0版软件,以/te/,/pai/,/kan/,/si/为检测语音样本,进行语谱图分析,利用冲直条、乱纹的出现率及辅音结构中空白间隙来描述辅音的特征。观察患者语言训练前后辅音出现率,观察语音障碍的临床特点;并针对性地进行综合性语言训练,包括腭咽闭合功能训练、增强节制呼气功能训练、强化正确的构音器官运动训练,治疗开始每周一两次,后期每2周1次,30-60min/次,训练3-6个月。比较训练前后语音学指标。
结果:纳入患者16例,均进入结果分析。(1)腭裂患者术后语音障碍临床特点主要包括:继发于腭咽闭合功能不全所致的结构性发音不清6例(38%),表现为鼻漏气、过重鼻音,韵母、声母均可发生;因不良代偿发音习惯而引起的功能性语音障碍16例(100%),主要表现为腭化构音16例(100%)、侧化构音14例(88%)、鼻咽构音13例(81%)和声母的歪曲16例(100%)、置换16例(100%)或省略14例(88%);言语呼吸障碍4例(25%),表现为最长声时缩短。(2)治疗前后平均语音清晰度由32.63%提高到79.50%,两者差异有显著性意义(P〈0.001)。(3)测试音节声母频谱特征性指标冲直条、乱纹出现率治疗后较治疗前明显增加(P〈0.05)。
结论:腭裂修补术后语音障碍主要原因是不良代偿发音习惯而引起的功能性语音障碍;综合性语言治疗可以显著提高患者的语音状况;计算机频谱分析有助于腭裂术后语音状况评估及训练疗效分析。
VoWLAN语音终端开发设计
The Terminal Design of VoWLAN
李云燕 龙昭华 蒋贵全 毛周明
VoWLAN是基于WLAN(无线局域网)的语音技术,是WLAN和voIP技术的结合,属于一种无线VoIP技术。这一技术使人们随时随地的通过WLAN网络拨打IP电话成为现实。本终端选择UBICOM公司的网络处理器IP2022作为本终端的主控制器、TI公司TLV320系列的AIC10作为语音的编解码处理器。IP2022是一款RISC的处理器,运算速度为120MIPS:在语音处理上。TI的DSP产品价格低廉性能稳定,得到很广泛的应用,满足现阶段时语音的需求。另外,这些器件具有强大的运算和处理功能。经过简单扩充,可满足未来时多媒体通信的需求。SIP协议是下一代网络(NGN)语音通信的主流协议,具有开放性,可加快产品的设计周期,满足社会的需求。
背景噪声下的语音识别技术研究
Research on Noisy Speech Recognition Technology
陈伟红
研究了3种背景噪声下与说话人有关的孤立词语音识别方法。即语音前端声学处理法、正则相关分析的谱变换补偿方法和同模极点增加法。实验结果表明,这3种方法都有效地提高了噪声环境中语音识别率,其中较好的方法在强噪声环境中(信噪比为0dB)的语音识别率达到80%以上,为信噪比较低的噪声环境中自动语音识别展现了美好前景。
基于语音参数模型的语音隐藏算法
陈亮 张雄伟
基于语音参数模型,该文提出一种将保密语音隐藏在公开语音中的信息隐藏算法.首先将保密语音经混合激励线性预测(MELP)编码和纠错编码形成隐藏信息.然后根据瞬态互相关基音周期检测算法确定频域嵌入点,并通过修改对应的DFT系数来隐藏信息.提取时按同样方法确定嵌入点恢复隐藏信息,并经MELP解码还原保密语音.实验结果表明嵌入信息后,中间语音的分段平均信噪比接近60dB,并且在受到压缩、滤波等攻击时具有较强的鲁棒性.算法为信息安全和数字水印领域研究开辟了一条新的途径.
基于LM算法的神经网络语音识别
Neural network speech recognition based on LM algorithm
葛玲 贾志成 夏克文 王霞
由于语音识别中朵用标准BP算法存在的训练速度慢、容易陷入局部极小等问题,提出一种基于稳定、快速的Levenberg-Marquardt算法的神经网络语音识别方法,主要包括语音信号预处理、特征提取、网络结构优化设计、网络学习训练和语音识别等过程。其中网络隐含层节点数的选取采用黄金分割优选法。试验仿真表明,LM算法明显提高了网络训练速度,减少了训练时间,其效果优越于标准BP算法。
一种混沌语音保密通信系统
A Chaotic Speech Secure Communication System
浦晨岚 林锦国 李为相
随着现代计算机技术和网络技术的发展,IP电话已越来越广泛应用于人们的日常生活中,由此带来的语音信息的保密传输的要求也越来越迫切,传统的加密算法已经倍感压力。混沌是指在确定的非线性系统中出现的一种非常复杂的随机现象。近年来混沌同步及其在保密通信中的应用受到了广泛的关注,已成为混沌成用领域中的热点。针对无刷式直流电机(BLDCM)这一混沌模型,用状态观测器方法实现了发送端和接收端的混沌同步,同时构建了两种基于该混沌模型的混沌同步保密通信系统,在这两种系统中成功实现了语音信号的安全通信,通过语音信号传输过程的动态模拟实验验证了这两种语音保密通信系统的有效性。
汉语语音基音轨迹的形态学滤波和平滑
赵晓群 王光艳
本文依据数字语音信号的特点,设计了一种用于语音处理的形态学滤波算法,合理选择结构元素构筑了一组用于汉语语音基音轨迹平滑的形态学滤波器,仿真数据的实验结果表明这种方法对于随机误判点与传统中值组合平滑相比效果更佳,同时也证明了数学形态学用于语音信号研究的可行性。