当前位置：主页 > 查看内容

零基础入门语音识别之赛题介绍

发布时间：2021-07-23 00:00| 有位朋友查看

简介：声音的产生声音以波的形式产生我们从波的视角来理解声音仅凭频率幅度相位便构成了波及其叠加的所有声音的不同音高、音量、音色也由这些基本“粒子”组合而来。世界上所有的声波都可以“降解”到基本波以上这也是傅里叶变换的基本思想。赛题数据集介绍声……

声音的产生

声音以波的形式产生，我们从波的视角来理解声音，仅凭频率，幅度，相位，便构成了波及其叠加的所有，声音的不同音高、音量、音色也由这些基本“粒子”组合而来。
世界上所有的声波都可以“降解”到基本波以上，这也是傅里叶变换的基本思想。

赛题数据集介绍

声音分类在很多场景中都有大模型的应用，例如对于音乐的分类可以应用与音乐的检索和推荐中，本赛题的背景是食物的声音的分类。
本次比赛的数据集来自Kaggle的“Eating Sound Collection”（可商用），数据集中包含20种不同食物的咀嚼声音，赛题任务是给这些声音数据建模，准确分类。

下载天池数据集并解压

!wget http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531887/train_sample.zip
!unzip -qq train_sample.zip
!\rm train_sample.zip

!wget http://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531887/test_a.zip
!unzip -qq test_a.zip
!\rm test_a.zip

上述代码需要在linux系统下运行

数据探索

加载库

import pandas as pd
import numpy as np

pd.plotting.register_matplotlib_converters()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
    
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.model_selection import GridSearchCV

from sklearn.preprocessing import MinMaxScaler

加载音频处理库

import os
import matplotlib.pyplot as plt
import librosa
import librosa.display
import glob
import IPython.display as ipd

我们将主要使用两个库进行音频采集和回放： 1）Librosa：它通常用于分析音频信号，但更倾向于音乐，它包括用于构建MIR（音乐信息检索）系统的nuts 和 bolts。示例和教程可以参考：(https://librosa.github.io/librosa/) 

2）IPython.display.Audio： 该模块能使得音频直接在jupyter笔记本中播放。这两个库我们下面都会用到，可用以下命令进行安装：pip install 【包名，如“librosa”】 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

查看音频数据

voice_path = './train_sample'


def look_data():
    # 音频类别文件夹个数
    print(f'音频文件夹的个数: {len(os.listdir(voice_path))}')

    voice_total = 0
    single_label = {}
    for ind, label_name in enumerate(os.listdir(voice_path)):
        file_path = voice_path + '/' + label_name
        single_num = len(os.listdir(file_path))
        single_label[label_name] = single_num
        voice_total += single_num

    print(f'音频文件总量： {voice_total}')
    print(f'{"序号":<5}{"类别":<15}{"数量":<10}{"占比"}')
    for ind, (key, value) in enumerate(single_label.items()):
        print(f'{ind:<5}{key:<20}{value:<10}{value / voice_total:.2%}')

查看音频特征

ipd.Audio('音频文件的路径') #播放文件
librosa.load('路径')#返回数据和采样率
plt.figure(figsize = (14,5))
librosa.display.waveplot(data,sr = sample_rate)#绘制音频文件的波形幅度包络

声谱图是声音或其他信号的频率随时间变化时的频谱（spectrum）的一种直观表示。声谱图有时也称sonographs,voiceprints,或者voicegrams。当数据以三维图形表示时，可称其为瀑布图（waterfalls）。在二维数组中，第一个轴是频率，第二个轴是时间。我们使用librosa.display.specshow来显示声谱图。

plt.figure(figsize=(20, 10))
D = librosa.amplitude_to_db(np.abs(librosa.stft(data1)), ref=np.max)
plt.subplot(4, 2, 1)
librosa.display.specshow(D, y_axis='linear')
plt.colorbar(format='%+2.0f dB')
plt.title('Linear-frequency power spectrogram of aloe')

；原文链接：https://blog.csdn.net/weixin_43525495/article/details/115743270
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：video、audio的属性和方法（笔记） 下一篇：侯捷C++课程(下)学习三+STL

随机推荐

jsp中page指令用法详解

本文实例讲述了jsp中page指令用法。分享给大家供大家参考。具体如下：一、JSP ...
【图像计数】基于matlab硬币计数【含Matl

一、简介本设计为硬币图像识别统计装置通过数码相机获取平铺无重叠堆积的硬币的...
【算法】扑克发牌算法实现

首先给扑克牌中每张牌设定一个编号，下面算法实现的编号规则如下： u 红桃按照从...
微软泄露Windows10新UI！Windows10任务栏

我们知道微软将会在今年给Windows10更换全新设计的UI，让Windows10的界面更加整...
Git 常用命令清单(整理且详细)

git工作区，暂存区，版本库之间的关系：我们建立的项目文件夹就是工作区，在初...
Window十二问（快扶我起来，我还能问）

前言关于Window，你了解多少呢?看看下面这些问题你都能答上来吗。如果你遇到这...
水杯的测试用例

从功能测试、性能测试、界面测试、安全性测试、易用性、兼容性测试、震动测试七...
MVC、MVP和MVVM分别是什么_动力节点Java

一、MVC MVC模式的意思是，软件可以分成三个部分。视图（View）：用户界面。控...
程序员误区，缓存一定能提升程序效率么？

大家好，今天我们来简单的聊一聊缓存问题。什么是缓存呢?它在系统设计中是在一个...
获近亿元战略融资，觉非科技领跑车路协同

今日国内领先的智能数据服务运营商觉非科技完成近亿元A轮融资。本轮融资由和高资...

零基础入门语音识别之赛题介绍

声音的产生

赛题数据集介绍

下载天池数据集并解压

数据探索

加载库

加载音频处理库

查看音频数据

查看音频特征

推荐图文

原生js实现表格循环滚动

高效管理http连接的方法

第一个项目：D触发器，DFRB1C。

ajax jquery校验用户是否已经注册演示代码

解决安装Pycharm后在C盘下生成大文件的问题

asp 过滤非法字符函数

随机推荐

jsp中page指令用法详解

【图像计数】基于matlab硬币计数【含Matl

【算法】扑克发牌算法实现

微软泄露Windows10新UI！Windows10任务栏

Git 常用命令清单(整理且详细)

Window十二问（快扶我起来，我还能问）

水杯的测试用例

MVC、MVP和MVVM分别是什么_动力节点Java

程序员误区，缓存一定能提升程序效率么？

获近亿元战略融资，觉非科技领跑车路协同

关于我们