AVS-H 婴幼儿语料库

avsnest0 | 当前状态：在线 总积分：47 2026年可用积分：0 注册时间： 2018-06-27 最后登录时间： 2018-07-02 空间发短消息加为好友: AVS-H 婴幼儿语料库

avsnest0 发表于 2018/6/27 16:13:35 2084 查看 2 回复 [上一主题] [下一主题]

手机阅读

人类婴儿由于出生时过于虚弱，不具备主动接近成人的行为能力，因此在9个月之前，其主要通过哭声吸引成人的注意，并向成人表达他的需求。婴幼儿语料库是按照一定采样标准采集的电子数据集合，随着大数据时代的到来，语音智能产品已经渗透到移动通信、智能家居、工业生产等很多领域。语音识别技术逐渐趋于成熟，然而，语音识别产品所依赖的语音数据价值变得更加显著，语料库成为重要的基础资源。独有核心技术，让AI更进一步。

本语料库采集了近十六万条语音。录音采集人来自中国大陆各地，录制人数300多人，录制家庭300多家，采取0-14个月跟踪家庭录制，男女比例均衡，音频总时长1275小时，采集方式为单麦设备。每条音频单独存储为一个文件，并由专业标注人员手工进行两级标注。所有标注数据都是全检后再交付，以保证交付数据的质量。

技术背景介绍

随着以深度神经网络为代表的人工智能技术的发展，新一轮的人机交互技术热潮正在兴起。在机器视觉领域，由于海量图像和视觉场景数据库的诞生，催生了人脸识别、姿态识别、自动驾驶、无人机等领域的技术革新。目前世界上已有的典型的大规模海量图像和视觉场景数据库包括，ImageNet、MSCOCO等业界知名的数据库。

在声音场景和声音事件的识别领域，技术的发展已经成熟，然而商业应用滞后于机器视觉领域的应用。在声音领域，目前世界上最著名的音频数据库包括：欧洲的DCASE（声音场景和事件数据库）和谷歌的Audio Set（包括各类层次结构化的音频分类数据）等。

在家庭环境领域，能够用来服务于AI应用的声音数据极为缺乏，本产品旨在填补这一空白，为全球的智能家庭环境的AI应用落地做出贡献。

声音场景（Acoustic Scene）指的是室内、室外、火车站、餐厅、看电影、听音乐等实际生活中人们的有声的生活场景，通过声音信号的识别来辨识这类场景，就是声音场景识别；声音事件（Acoustic Event）指的是根据短时声学特征，利用统计学习的建模方法，对不同的声源所关联的事件，进行类别的分类。例如，对哭声、咳嗽声、脚步声，能够通过声音频率特征的分布规律，进行实时的检测，发现家居环境中的突发性事件、婴幼儿的行为事件、家庭成员的异常活动等。

数据应用场景

【家庭环境婴幼儿声音场景和声音事件数据库】作为丰富的数据资源，可用于哭声及家庭环境声音频率和特征的分析学习，研究声环境及其同人类活动的相互作用，更好的满足了多种场景的人工智能研发数据支撑。也为婴幼儿智能产品的创新和研发，尤其为互联网行业、母婴行业、智能家居行业提供了更详细的数据和更全面的信息支持。

产品优势

l 领先的语音采集处理技术及专业标注团队；

l 同时支持科研和教学；

l 支持可视化操作；

l 支持基于机器学习的智能分析；

l 支持科研需求定制开发；

l 人工校对、多层级语音数据标注；

1楼 0 0 回复

acrelxyl   |   当前状态：在线

总积分：-6059  2026年可用积分：0

注册时间： 2011-12-01

最后登录时间： 2023-02-14

空间发短消息加为好友

acrelxyl   发表于 2018/6/28 8:53:16

这是啥
2楼 回复本楼

引用 acrelxyl 2018/6/28 8:53:16 发表于2楼的内容

总共 1, 当前 1/1

高级回复 | 发新主题

发表新帖

控制工程师论坛

2016年积分排行