鉴于其语音数据库最终会开源,Mozilla也采纳了必然的办法来用户现私。他说:“我们不得不把用户小我消息从录音中剥分开来分隔,这使得剪辑的音频本身没有嵌入任何小我识别消息。”
正在57天内,Common Voice收集了大约307,000个录音,每段约3至5秒。Mozilla式立异团队数字计谋家Michael Henretty说,这使得总音频的播放时长为340到520小时。
“你的声音是可识此外,”Tatman称,“这凡是被认为是可识此外消息。”
Tatman说:“若是我已经看到过良多弗吉尼亚州女性的,我天然会对来自弗吉尼亚州女性的讲话理解精确,而对来自加利福尼亚州男性的理解精确度就没有那么高。”
Mozilla还会邀请日常用户通过收听来验证本人提交的音频样本。Tatman指出,大大都语音帮手开辟公司之所以不会供给音频数据库并不完满是为了阻遏同业合作。由于用户的语音查询消息包含了太多的小我内容,例若有小我的收集或发送的短信,这将会带来严沉的现私泄露问题。对于特定用户来说,犯警可能会他们奇特的声音来识别其身份。
对于诸如苹果Siri,亚马逊Alexa,微软Cortana以及谷歌Home等语音的虚拟帮手来说,音频数据是其次要驱动要素。让这些法式可以或许实正领会用户所说的话需要大量实正在的人类言语实例。
而Common Voice项目会邀请可以或许上彀且设置装备摆设有麦克风的任何人通过网页浏览器上来提交他们本人阅读特定句子的简短音频记实。这取谷歌项目工做体例有些雷同。但分歧的是Common Voice要求人们提交完整的句子,而谷歌凡是需要的是用做号令的特定单词和数字。Mozilla还会要求参取者供给一些根基的生齿统计消息,如春秋,性别和英语方言地域(例如美国英语,英语、西印度群岛英语或百慕大英语)。
谷歌于周四发布了全球人类录音的众包数据集。 此中包罗65,000个时长一秒钟的音频剪辑文件,内容是来自世界各地的人们关于简单指令词的发音——是的,不,遏制,去等等。 而开辟开源浏览器Firefox的Mozilla比来推出了一个名为Common Voice的新项目。其方针是成立一个免费的众包性质数据集,此中包含了世界各地的人类语音样本。
具有多样化语音样本的环节劣势之一是使得所锻炼的算法避免了意想不到的成见。由于任何一个带有口音的人利用语音帮手就会发觉,这些系统正在理解尺度发音的语音要更好一些。
“当我们起头打制语音识别系统时,我们发觉我们能够正在已有算法的根本上工做,并正在算法方面进行一些立异。可是要想让语音识别系统实正起,数据的筹谋,建立和聚合是一个绕不开的挑和,“Mozilla新兴手艺高级副总裁肖恩·怀特(Sean White)如是指出,“若是你想做一个新的语音识别系统,你无法找到一个现成的高质量音频数据集。”
比拟于现有的开源音频数据库,Mozilla打制的语音数据库劣势正在于,其更切贴于日常利用情况,这一点取Siri或Alexa语音设备采集的音频样本一样。
具有多种多样的者和口音,加上数据集预期的规模,该当可以或许使Mozilla收集到的录音比现有的开源音频数据集价值更大,以至可以或许取良多大公司内部的音频数据集相媲美。
“我们会尽可能地笼盖更多音频数据,”Henretty如是指出。(晗冰)
Mozilla的方针是正在本年晚些时候发布音频数据库,其但愿正在此之前可以或许采集到越10,000小时的音频数据,这个别量脚以锻炼目前任何的语音识别系统。
这个音频数据库存储量跨越1千兆,但这只是谷歌用于锻炼人工智能系统所收集语音数据总量的一小部门。该公司已经打制了一个从动化的目次帮帮办事,现明,该办事是谷歌收集人类语音数据的次要体例。
同样,亚马逊的语音数字帮理Alexa将用户的语音查询传输到远端办事器,用于进一步锻炼该数字帮手。苹果则通过雇佣者来朗读特定的文字或语句让Siri新的言语或方言,此外也会通过采集人们利用办事的语音来构成语音数据库。此外据报到,微软曾经去世界各地设立了模仿公寓,模仿实正在糊口情况中的音频片段并收集构成数据库,从而用于锻炼本人的Cortana数字帮理。
卡内基梅隆大学研究传授,卡内基梅隆联盟从任亚历山大·鲁德尼奇(Alexander Rudnicky)指出,语音识别算法的开辟人员凡是需要数百或数千小时的音频材料对算法进行锻炼。
这对现有的语音识别公司带来了不少内正在劣势,由于这些公司曾经堆集了可用于锻炼算法的复杂语音数据库。而新的创业公司必需有本人的语音音频文件,当然其能够从现有的数据库中获取,好比良多公司通过TED Talk建立的约300小时语料库锻炼算法。
然而,公司情愿正在内部利用这些数据:苹果公司曾暗示,它有保留Siri数据,用户标识符(如ID号码和电子邮件地址)的,从而帮帮改良算法。
Rudnicky暗示:“从底子上说他们正正在利用浏览器来收集数据,这意味着他们针对方针用户收集的数据将具有更多的代表性。好比说我坐正在办公室里,就会利用正在桌面情况下找到的麦克风,如许采集的音频具有情况代表性。”
但所有这些数据库都是私有的,学术界,研究人员或其他合作敌手却无法利用。这就是为什么Mozilla决定发布其开源的Common Voice项目。
他说:“我们曾经超越了诸如TED等现有的开源数据库。“
谷歌特地为人工智能发布的人类录音数据库,旨正在让第三方制制商可以或许测验考试利用机械手艺。 “我们用来建立数据的根本架构也是开源的,我们但愿看到其可以或许被更多公司用来开辟本人的使用,出格是开辟更多的语音相关使用法式,”软件工程师Pete Warden正在发布会上如是指出。
谷歌旗下数据科学平台Kaggle的数据预备阐发师Rachael Tatman正在本年早些时候颁发了一篇关于性别和方言是若何影响YouTube从动加载字幕精确性的文章。她发觉对于女性和苏格兰的者来说,YouTube的从动加载字幕不太精确。分歧的系统往往会呈现分歧的错误,此次要取决于锻炼数据。
但现有的开源数据集曾经呈现了此类问题。例如仪器公司最后收集的Switchboard对话数据集就有着不少成见。而数据成见正在人工智能的其他范畴一曲是存正在的问题,一些算法识别白人话语的结果更好,或者很难理解非裔美国人的当地英语良多高科技公司以及开源项目,都分歧程度地存正在成见问题。