官方公众号:52phm,与工业互联网人一起成长

2022-01-13 16:53:53    互联网    598    当前专栏:语音信号预处理    分类:算法开发    本站官网:www.52phm.cn   

公众号 ...

语音信号的预处理

概述

语音信号是一种非平稳的时变信号,它携带着大量信息。在语音编码、语音合成、语音识别和语音增强等语音处理中,都需要提取语音中包含的各种信息

语音处理的目的

  • 对语音信号进行分析,提取特征参数,用于后续处理
  • 加工语音信息,如语音增强和语音合成中的应用

根据所分析的参数类型,语音信号可以分成:

  • 时域分析
    • 最简单、最直观
    • 直接对语音信号的时域波形进行分析
    • 特征参数:语音的短时能力、平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等
    • 对语音信号进行分析(时域/变换域)之前,一般都要对其做预处理
  • 变换域(频域、倒谱域)分析

语音信号的预处理

模拟语音信号s(t),离散化为s(n) ,即数字处理

获得数字语音的途径

  • 正式:大公司或语音研究机构发布的被大家认可的语音数据库
  • 非正式:研究者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句

语音信号数字化:采样
在这里插入图片描述

  • 语音信号的频率范围通常是300 ~ 3400Hz
  • 一般情况下取采样频率为8kHz即可
  • 采样定理:当采样频率fs大于信号中最高频率fmax的2倍时(fs>2fmax),采样之后的数字信号完整地保留了原始信号中的信息
  • 一个连续信号在被采样化了以后,其频域就是原信号频谱的周期性延拓;每隔一个采样频率重复一次
    在这里插入图片描述

语音信号数字化:量化


在这里插入图片描述

语音信号的预加重处理

  • 语音信号的平均功率受声门激励和口唇辐射的影响,大约在200 ~ 500Hz处按6dB/倍频程跌落
  • 预加重的目的:提升语音信号高频部分,去除口唇辐射的影响,增加语音的高频分辨率,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,便于进行频谱分析或者声道参数分析
    在这里插入图片描述

  • 实现:通过一阶FIR高通数字滤波器来实现

  • H(z) = 1 - az-1
    • 其中a为预加重参数,通常可以取0.9 < a < 1.0
    • 设n时刻的语音采样值为x(n),用差分方程实现预加重的方程为:y(n)=x(n)-ax(n-1)
  • 高通滤波器的幅频特性


  • 一段语音信号在预加重前后的时域波形和频谱图


  • 语音信号的加窗处理

    • 为了方便对语音信号进行分析,假设语音信号在10~30ms短时间内是平稳的。可把语音信号分帧进行处理。采用可移动的有限长度窗口进行加权实现分帧
      在这里插入图片描述

  • 典型的窗函数
    • 矩形窗
      在这里插入图片描述

    • 汉明窗
      在这里插入图片描述

    • 汉宁窗
      在这里插入图片描述

  • 哪种窗函数较好?
    • 汉明窗能相对更好地保留原语音信号的频率特性,使用最广泛
  • 频率泄露/截断效应:频谱分析的傅里叶变换会作周期延拓,把截取的有限长序列当成是无限长序列的一个周期,不断的复制,取得一个新的无限长序列。这个新的序列与原序列是不一样的,分析得到的频谱自然也不同(会多出一些本来没有的频率)
  • 帧长:一般每帧10-30ms(采样率10kHz时,100~300个点),帧移10ms。原因如下:
    • 当窗较宽时,平滑作用大(每一帧内作数据统计),能量变化不大,反映不出能量变化
    • 当窗较窄时,没有平滑作用,反映了能量的快变细节,而看不出包络的变化

      在这里插入图片描述

      操作小记

矩形窗 代码

x = linspace(0, 100, 10001);    %在0-100的横坐标去10001个值
h = zeros(10001, 1);            %为矩阵h赋0指
h(1:2001) = 0;                  %前2000个值为0值
h(2002:8003) = 1;               %窗长,窗内取值为1
h(8004:10001) = 0;              %后2000个值为0值
figure(1);                      %定义图号
subplot(1, 2, 1);               %画第一个子图
plot(x, h ,'k');                %画波形,横坐标x,纵坐标h,k表示黑色
title('矩形窗时域波形');          %图标题
xlabel('样点数');                %横坐标名称
ylabel('幅度');                  %纵坐标名称
axis([0, 100, -0.5, 1.5]);      %限定横纵坐标范围
line([0, 100], [0,0]);          %画出x轴

w1 = linspace(0,61,61);         %取窗长内的61点
w1(1:61) = 1;                   %赋值1,相当于矩形窗
w2 = fft(w1, 1024);             %对时域信号进行1024点的快速傅里叶变换
w3 = w2/w2(1);                  %幅度归一化
w4 = 20*log10(abs(w3));         %对归一化幅度取对数(根据dB的定义)
w = 2*[0:1023]/1024;            %频率归一化
subplot(1, 2, 2);               %画第二个子图
plot(w, w4, 'k');               %画幅度特性图
axis([0,1,-100,0])              %限定横纵坐标范围
title('矩形窗幅度特性');          %图标题
xlabel('归一化频率 f/fs');        %横坐标名称
ylabel('幅度/dB');               %纵坐标名称

代码分析

  • linspace(x1,x2,n)
    • 功能:生成 n 个点。这些点的间距为 (x2-x1)/(n-1)
    • 参数:
      • x1:起始值
      • x2:中止值
      • N:元素个数,默认点数为100 效果

        在这里插入图片描述

汉明窗 代码

x = linspace(0, 60, 61);    %在0-60的横坐标间取61个值作为横坐标点
h = hamming(61);            %取61个点的汉明窗值为纵坐标
figure(1);                  %画图
subplot(1, 2, 1);           %第一个子图
plot(x, h, 'k');            %横坐标x,纵坐标h,k为黑色
title('Hamming窗时域波形');  %图标题
xlabel('样点数');            %横坐标名称
ylabel('幅度');              %纵坐标名称
w1 = linspace(0, 61, 61);    %去窗长内的61个点
w1(1:61) = hamming(61);      %加汉明窗
w2 = fft(w1, 1024);          %对时域信号进行1024点傅立叶变换
w3 = w2/w2(1);               %幅度归一化
w4 = 20*log10(abs(w3));      %对归一化幅度取对数
w = 2*[0:1023]/1024;         %频率归一化
subplot(1, 2, 2);            %画第二个子图
plot(w, w4, 'k');            %画幅度特性图
axis([0, 1, -100, 0]);       %限定横、纵坐标范围
title('Hamming窗幅度特性');   %图标题
xlabel('归一化频率 f/fs');    %横坐标名称
ylabel('幅度/dB');           %纵坐标名称

效果

在这里插入图片描述

汉宁窗 代码

x = linspace(0, 60, 61);    %在0-60的横坐标间取61个值作为横坐标点
h = hann(61);               %取61个点的汉宁窗值为纵坐标
figure(1);                  %画图
subplot(1, 2, 1);           %第一个子图
plot(x, h, 'k');            %横坐标x,纵坐标h,k为黑色
title('Hanning窗时域波形');  %图标题
xlabel('样点数');            %横坐标名称
ylabel('幅度');              %纵坐标名称
w1 = linspace(0, 61, 61);    %去窗长内的61个点
w1(1:61) = hann(61);         %加汉宁窗
w2 = fft(w1, 1024);          %对时域信号进行1024点傅立叶变换
w3 = w2/w2(1);               %幅度归一化
w4 = 20*log10(abs(w3));      %对归一化幅度取对数
w = 2*[0:1023]/1024;         %频率归一化
subplot(1, 2, 2);            %画第二个子图
plot(w, w4, 'k');            %画幅度特性图
axis([0, 1, -100, 0]);       %限定横、纵坐标范围
title('Hanning窗幅度特性');   %图标题
xlabel('归一化频率 f/fs');    %横坐标名称
ylabel('幅度/dB');            %纵坐标名称

效果

在这里插入图片描述

相关资料
Hann (Hanning) window - MATLAB hann:https://ww2.mathworks.cn/help/signal/ref/hann.html?requestedDomain=cn

原文链接:https://blog.csdn.net/qq_40626497/article/details/105092023

免责声明:信息来源于互联网聚合整理或者作者原创,非原创文章标示"互联网",原创文章标示"作者昵称",本文仅代表文章作者的个人观点,且文中陈述文字和内容的时效性、真实性与本站无关,请读者仅作参考,如发现有害或侵权内容,请联系我们将在第一时间进行核实处理。


[推荐] 数字信号处理期末总复习

2021-12-14 10:44:43    互联网    588    分类:算法开发    专栏:数字信号处理   


[推荐] 数字信号处理的主要内容

2022-01-13 17:36:49    互联网    225    分类:算法开发    专栏:数字信号处理   


[推荐] 语音信号的数据分析

2022-03-23 22:57:45    互联网    476    分类:算法开发    专栏:语音信号预处理   



转发此文章到社区


进群

让志同道合读者学习交流



机械振动信号13个频域指标

频域统计指标计算公式振动信号频域分析首先需要把信号的时域波形借助离散傅里叶变换转化为频谱信息,公式如下:式中:x(kΔt)x(k\Delta t)x(kΔt)为振动信号的采样值;NNN为采样点数;Δt\Delta tΔt为采样间隔;kkk为时域离散值的序号。求得频谱信息后,可根据频域统计指标公式计算相应的值,公式如下:python程序def get_fre_domain_feeatures(f,y): fre_line_num = len(y) p1 = y.mean()

2021-12-08 09:51:40    互联网    3885    分类:算法开发    专栏:振动信号预处理   


光谱信息在癌症检测上的应用

拉曼光谱(Raman) 与傅里叶变换红外光谱(FTIR) 在癌症的检测上具有一定的应用价值。由于检测组织中水的存在常使结果变得复杂,FTIR常用于皮肤层面的检测。在材料的制备与探针选择上,拉曼方法也更适用于组织活检,甚至实时检测。1.拉曼光谱在乳腺癌检测上的应用文章:Application of Raman Spectroscopy and Infrared Spectroscopy in the Identification of Breast Cancer(2016)期刊 Applied

2021-12-14 15:50:53    互联网    654    分类:算法开发    专栏:数字信号处理   


信号调制基础理论知识

学习——信号调制识别 (一)  看了《通信信号调制识别技术及其发展》这一论文后,将学习到的知识记录在这篇博客里。1、通信信号调制识别技术  调制识别问题从本质上来说是一种典型的模式识别问题。其基本框架如图所示:    调制识别由三部分组成:信号预处理、提取特征参数和分类识别。信号预处理部分包括载波同步、频率下变频、噪声抑制以及对信噪比、符号周期、载波频率等参数的估计。特征提取部分...

2021-12-14 22:00:52    互联网    665    分类:算法开发    专栏:数字信号处理   


深度学习对振动类光谱信息的处理论文笔记

光谱原始数据通常存在伪影,噪声等问题,而预处理步骤可能对准确率造成影响,同时对不同数据的适应性差,神经网络能提供端到端的方法(或者省去某个预处理步骤),因而具有一定前景。数据驱动的深度学习技术可以发现大数据集中复杂的结构,并从数据中提取关键特征。一.综述文章:Deep learning for vibrational spectral analysis: Recent progress and a practical guide(2019)自2017年提出,将深度学习应用于光谱处理这一领域,迄

2021-12-14 22:12:02    互联网    549    分类:论文速递    专栏:未分组   


关于包络概念的理解

加速度包络是SKF的专利技术,加速度包络是一种信号处理技术,这种技术能够检测到很弱的冲击故障信号,比如轴承的早期损伤。它可以将非常弱的冲击信号经过一系列的放大、滤波等处理转变成高频的振动信号。包络解调原理:故障所引起的低频(通常是数百HZ以内)冲击脉冲激起了高频(数十倍于冲击频率)共振波形,对它进行包络、检波、低通滤波(即解调),会获得一个对应于低频冲击的而又放大并展宽的共振解调波形。

2021-12-17 09:38:26    互联网    645    分类:算法开发    专栏:振动信号预处理   


【数字信号处理】--数字信号分析与处理基础知识

文章目录一、信号的时域分析1.1信号波形参数识别1.2检测方法 过零检测法1.3数字信号微分与数字信号积分二、信号的频域分析2.1周期信号的频谱分析2.2 信号的频谱分析2.3数字信号的频谱计算方法三、信号的时差域相关分析3.1信号的相关系数3.2 相关应用3.3 数字滤波器和模拟滤波器的区别四、信号的幅值域分析4.1概率密度曲线与概率分布曲线的应用五、信号的数字滤波5.1滤波器概念5.2频率域滤波:5.3时域滤波5.4 时域FIR滤波器5.5 IIR滤波器5.6 其他滤波器5.7 数字音乐均衡器的设计六、

2022-01-13 17:40:13    互联网    192    分类:算法开发    专栏:数字信号处理   


PIL图像预处理实操

1 PIL基本操作:主要是为了介绍 PIL 打开、展示和保存图像的基本运用。 2 图像处理:这个主要是为了对原始图像进行再处理,从而使图像符合我们的需求, 通常这里的处理情况会影响到模型训练的精度和准。 3 图像向量化:由于图片是非结构化数据,计算机不能直接识别处理, 因此需要向量化处理,从而转换成结构化数据 4 图像识别分类实战:主要是以步骤性来讲述,方便掌握

2022-03-10 16:18:19    博客笔记    525    分类:算法开发    专栏:图像预处理   


音频处理库—librosa的安装与使用

目录序言一、libsora安装pypicondasource二、librosa常用功能核心音频处理函数音频处理频谱表示幅度转换时频转换特征提取绘图显示三、常用功能代码实现读取音频提取特征提取Log-Mel Spectrogram 特征提取MFCC特征绘图显示绘制声音波形绘制频谱图序言Librosa是一个用于...

2022-03-23 22:43:42    互联网    2003    分类:算法开发    专栏:语音信号预处理   


故障诊断之基于振动信号的阶比谱分析

故障诊断之基于振动信号的阶比谱分析

2022-05-31 11:08:40    互联网    1283    分类:算法开发    专栏:振动信号预处理   


齿轮故障诊断的实验数据集及python处理

该试验台在不同小齿轮条件下进行测试,并通过加速度计进行齿轮故障数据振动信号采集,加速度计采样率为10KHz、采样时长为10s,采样数据共3包,每一包数据对应着不同故障类型,分别是健康状态、齿轮断齿、齿轮磨损状态下的数据集。该数据集被授权于用于任何学术和研究目的。...

2022-08-09 16:05:36    博客笔记    29    分类:边缘感知    专栏:齿轮箱数据集