1.本发明涉及计算机技术领域,尤其涉及一种识别语音中关键词的方法及装置。
背景技术:2.现有的识别语音中关键词的方法主要包括三类,分别是基于语音信号识别、基于语音转文本识别和基于语音转拼音识别。基于语音信号识别,首先对语音信号进行切分,然后和关键词语音信号进行对比;基于语音转文本识别,使用神经网络模型将语音转为文字,然后在数据库中检索关键词返回结果;基于语音转拼音识别,将语音转为拼音,在词典中检索出拼音对应的关键词。
3.但现有方法存在以下不足:一是发音音准要求苛刻,对于一些语音数据,因发声者的个体习惯可能造成口音不同,从而导致匹配失败(如“欢迎加入大世界娱乐城”发音成“欢yin加入大世界娱乐chen”);二是模糊匹配能力差,针对相近语句表达,连续逐字匹配的方法可能导致匹配失败,(如“棋牌玩法全网最多”被表达成“棋牌种类全网最多”就被检测为不匹配),影响了查全率。
4.综上,现有方法存在语音中关键词识别的查全率较低的不足。
技术实现要素:5.本发明实施例提供一种识别语音中关键词的方法及装置,用以解决现有技术中语音中关键词识别的查全率较低的缺陷,实现查全率的提高。
6.本发明实施例提供一种识别语音中关键词的方法,包括:
7.将待识别语音输入至语音识别模型,输出所述待识别语音对应的模糊发音空间;
8.根据所述模糊发音空间,对关键词集进行搜索,获取所述待识别语音对应的关键词的识别结果;
9.其中,所述语音识别模型,是根据语音样本的样本语音信号以及对应的发音进行训练后得到的;所述发音是根据所述语音样本预先确定的,并与所述样本语音信号一一对应;所述模糊发音空间,用于表示待识别语音对应的多种语音识别结果。
10.根据本发明一个实施例的识别语音中关键词的方法,所述将待识别语音输入至语音识别模型,输出所述待识别语音对应的模糊发音空间的具体步骤包括:
11.将所述待识别语音分割成若干个音节;
12.获取所述待识别语音包括的每个音节的备选发音组,组成所述模糊发音空间。
13.根据本发明一个实施例的识别语音中关键词的方法,所述根据所述模糊发音空间,对关键词集进行搜索,获取所述待识别语音对应的关键词的识别结果的具体步骤包括:
14.根据所述模糊发音空间中的各备选音节,对所述关键词集进行搜索,获取多个候选关键词;
15.将所述模糊发音空间,与各所述候选关键词进行匹配,根据匹配结果,获取所述待识别语音对应的关键词的识别结果。
16.根据本发明一个实施例的识别语音中关键词的方法,所述根据所述模糊发音空间中的各备选音节,对所述关键词集进行搜索,获取多个候选关键词的具体步骤包括:
17.根据每一所述备选音节搜索所述关键词集,获取所述关键词集中包含所述备选音节的若干个关键词;
18.根据所述关键词集中各关键词包含的所述备选音节的数量,确定多个所述关键词作为所述多个候选关键词。
19.根据本发明一个实施例的识别语音中关键词的方法,所述将所述模糊发音空间,与各所述候选关键词进行匹配,根据匹配结果,获取所述待识别语音对应的关键词的识别结果的具体步骤包括:
20.将所述模糊发音空间,与每一候选关键词进行匹配,获取所述每一候选关键词对应的匹配程度;
21.根据各所述候选关键词对应的匹配程度,获取所述待识别语音对应的关键词的识别结果。
22.根据本发明一个实施例的识别语音中关键词的方法,所述将所述模糊发音空间,与每一候选关键词进行匹配,获取所述每一候选关键词对应的匹配程度的具体步骤包括:
23.将所述候选关键词中的每个音节,与每一所述备选音节进行匹配,获取匹配的音节的数量;
24.根据所述匹配的音节的数量和所述候选关键词包括的音节的数量,获取所述候选关键词对应的匹配程度。
25.根据本发明一个实施例的识别语音中关键词的方法,所述根据各所述候选关键词对应的匹配程度,获取所述待识别语音对应的关键词的识别结果的具体步骤包括:
26.若判断获知各所述候选关键词对应的匹配程度中的最大值大于预设的匹配阈值,则将所述最大值对应的候选关键词作为所述待识别语音对应的关键词的识别结果。
27.本发明实施例还提供一种识别语音中关键词的装置,包括:
28.语音识别模块,用于将待识别语音输入至语音识别模型,输出所述待识别语音对应的模糊发音空间;
29.空间搜索模块,用于根据所述模糊发音空间,对关键词集进行搜索,获取所述待识别语音对应的关键词的识别结果;
30.其中,所述语音识别模型,是根据语音样本的样本语音信号以及对应的发音进行训练后得到的;所述发音是根据所述语音样本预先确定的,并与所述样本语音信号一一对应;所述模糊发音空间,用于表示待识别语音对应的多种语音识别结果。
31.本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述识别语音中关键词的方法的步骤。
32.本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述识别语音中关键词的方法的步骤。
33.本发明实施例提供的识别语音中关键词的方法及装置,通过语音识别模型对待识别语音进行识别,获取多种可能的语音识别结果,组成模糊发音空间,将模糊发音空间和预先建立的关键词集进行匹配搜索,输出匹配到的关键词,使用模糊发音空间搜索的方法,能
够成功处理语音的相似表达、语音中的吞字现象和语音中的发音不准确现象,能提高语音匹配的查全率。
附图说明
34.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
35.图1是本发明实施例提供的一种识别语音中关键词的方法的流程示意图;
36.图2是本发明实施例提供的一种识别语音中关键词的装置的结构示意图;
37.图3是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
38.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
39.在本发明实施例的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明实施例的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
40.在本发明实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明实施例中的具体含义。
41.为了克服现有技术的上述问题,本发明实施例提供一种识别语音中关键词的方法及装置,其发明构思是,对待识别语音进行识别,获取多种可能的语音识别结果,组成模糊发音空间,将模糊发音空间和预先建立的关键词集进行匹配搜索,输出匹配到的关键词,可以自适应发音模糊与不标准情况和自动匹配语句的相似表达,从而提高语音匹配的查全率。
42.图1是本发明实施例提供的一种识别语音中关键词的方法的流程示意图。下面结合图1描述本发明实施例的识别语音中关键词的方法。如图1所示,该方法包括:步骤s101、将待识别语音输入至语音识别模型,输出待识别语音对应的模糊发音空间。
43.其中,语音识别模型,是根据语音样本的样本语音信号以及对应的发音进行训练后得到的;发音是根据语音样本预先确定的,并与样本语音信号一一对应;模糊发音空间,用于表示待识别语音对应的多种语音识别结果。
44.具体地,待识别语音,是被识别(或检测)的语音数据。
45.语音识别模型,用于对待识别语音进行语音识别,识别待识别语音对应的发音。
46.语音识别模型,可以是基于各种人工神经网络(artificial neural network,简称ann)等机器学习建立的模型。
47.本发明实施例中,将待识别语音输入至语音识别模型之后,语音识别模型并不是输出唯一的识别结果,而是输出多种可能的语音识别结果,组成模糊发音空间。
48.可能的语音识别结果,可以用拼音表示。
49.可以理解的是,待识别语音可以包括多个音节,相应地,语音识别模型对待识别语音中的每个音节进行识别,获取该音节对应各种发音的置信度,输出该音节的多种可能发音,从而得到待识别语音的多种语音识别结果。
50.输出多种可能的语音识别结果,是为了自适应发音模糊与不标准情况,通过考虑语音发音的多种可能发音,加强对发音模糊和不标准情况的自适应匹配。例如:“中(zhong)国移动通信”被说成“zong国移动通信”。
51.可以理解的是,步骤s101之前,可以将语音样本的样本语音信号作为训练样本,语音样本的样本语音信号对应的发音作为训练样本的标签,对语音识别模型进行训练,得到训练好的语音识别模型。训练好的语音识别模型,可以用于步骤s101中对待识别语音进行语音识别。
52.根据模糊发音空间,对关键词集进行搜索,获取待识别语音对应的关键词的识别结果。
53.具体地,关键词集是一个关键词列表,包括多个关键词。
54.关键词,是需要在语音中检测的目标,可以是一个短语或一个句子。
55.关键词列表中,关键词可以用该关键词的拼音表示。
56.根据模糊发音空间,对关键词集进行搜索,可以获取与模糊发音空间的匹配程度最高的关键词,作为匹配到的关键词。
57.根据匹配到的关键词,获取待识别语音对应的关键词的识别结果。
58.本发明实施例通过语音识别模型对待识别语音进行识别,获取多种可能的语音识别结果,组成模糊发音空间,将模糊发音空间和预先建立的关键词集进行匹配搜索,输出匹配到的关键词,使用模糊发音空间搜索的方法,能够成功处理语音的相似表达、语音中的吞字现象和语音中的发音不准确现象,能提高语音匹配的查全率。
59.基于上述各实施例的内容,将待识别语音输入至语音识别模型,输出待识别语音对应的模糊发音空间的具体步骤包括:将待识别语音分割成若干个音节。
60.具体地,音节,是由一个或几个音素构成的最小的语音结构单位。一般而言,在汉语中一个音节就是一个汉字的字音。
61.语音识别模型可以包括两个子模型:音节分割子模型和音节识别子模型。
62.音节分割子模型,用于根据语音知识和/或待识别语音的特征(例如半波差分谱),将待识别语音分割成若干个音节。
63.音节分割子模型,可以是基于各种人工神经网络(artificial neural network,简称ann)等机器学习建立的模型。
64.待识别语音输入至音节分割子模型,输出若干个音节,作为待识别语音的音节分割(或切分)结果。
65.获取待识别语音包括的每个音节的备选发音组,组成模糊发音空间。
66.具体地,音节分割子模型进行音节分割获得的每个音节,依次输入音节识别子模型,输出该音节的多种可能发音,组成该音节的备选发音组。
67.备选发音组,可以包括多个备选发音。可能发音,即备选发音。
68.音节识别子模型,用于获取输入的音节的多种可能发音
69.音节识别子模型,可以是基于各种人工神经网络(artificial neural network,简称ann)等机器学习建立的模型。
70.根据各音节的备选发音组,可以组成模糊发音空间。
71.每个音节的备选发音组所包括的备选发音的数量,可以为预设的第一个数。预设的第一个数,为备选发音组的长度。
72.预设的第一个数,大于一个,可以根据实际情况设定。对于预设的第一个数的具体取值,本发明实施例不作限制。
73.相应地,模糊发音空间可以是一个矩阵,其中的元素是拼音(即备选发音)。
74.模糊发音空间具有拼音维度和时间维度。时间维度描述了语音的发音随时间的变化情况,对应矩阵的水平方向。拼音维度是某个时间点上的备选发音组,对应矩阵的垂直方向。在模糊发音空间每一列任选一个发音,从时间维度上看可以得到一种语音识别结果。
75.例如,待识别语音为“斗地主百家乐”,对应的模糊发音空间如表1所示。
76.表1模糊发音空间示意表
77.doudizubaijialedudiezhubeijiluduodechubojiulaoudajubajieli
78.如表1所示,该模糊发音空间中时间节点有6个(6列),备选发音组的长度为4(4行)。经过排列组合,待识别语音对应的语音识别结果有46=4096种。
79.需要说明的是,音节识别子模型可以获取预测音节为某种发音的置信度,确定置信度最大的预设的第一个数的发音为备选发音。因此,还可以通过模糊发音空间的单元格背景色或单元格中元素增加一个属性,表示该备选发音的置信度。
80.本发明实施例通过将待识别语音分割成若干个音节,识别每个音节,获取每个音节的备选发音组,组成模糊发音空间,能够成功处理语音中的发音不准确现象,从而能提高语音匹配的查全率。
81.基于上述各实施例的内容,根据模糊发音空间,对关键词集进行搜索,获取待识别语音对应的关键词的识别结果的具体步骤包括:根据模糊发音空间中的各备选音节,对关键词集进行搜索,获取多个候选关键词。
82.具体地,遍历模糊发音空间中的备选音节,对于每一备选音节,搜索关键词集,获取与该备选音节匹配的关键词。
83.根据与各备选音节匹配的关键词,可以获取预设的第二个数的关键词,作为候选关键词。
84.预设的第二个数,大于一个,可以根据实际情况设定。对于预设的第二个数的具体取值,本发明实施例不作限制。
85.将模糊发音空间,与各候选关键词进行匹配,根据匹配结果,获取待识别语音对应的关键词的识别结果。
86.具体地,针对每一个候选关键词,进行深度匹配搜索,将该候选关键词与模糊发音空间进行匹配。
87.根据各候选关键词与模糊发音空间进行匹配的匹配结果,可以获取与模糊发音空间的匹配程度最高的候选关键词,作为匹配到的候选关键词。
88.根据匹配到的候选关键词,获取待识别语音对应的关键词的识别结果。
89.本发明实施例根据各备选音节,对关键词集进行搜索,获取多个候选关键词,针对每一个候选关键词,将该候选关键词与模糊发音空间进行匹配,根据匹配结果,获取待识别语音对应的关键词的识别结果,能缩短匹配过程的用时,更快地获得待识别语音对应的关键词的识别结果,达到实时检测的效果。
90.基于上述各实施例的内容,根据模糊发音空间中的各备选音节,对关键词集进行搜索,获取多个候选关键词的具体步骤包括:根据每一备选音节搜索关键词集,获取关键词集中包含备选音节的若干个关键词。
91.具体地,对于每一备选音节,可以根据该备选音节对关键词集进行搜索,确定包含该备选音节的关键词,获取该备选音节对应的关键词列表。
92.可以将对关键词集中的关键词转为拼音,根据关键词集中的关键词的拼音建立索引。每个关键词用一个标号进行标记。
93.对于转化获得的每个拼音,根据包括该拼音的关键词,建立该拼音的倒排索引。倒排索引的键值,用于表示包含该拼音的关键词。
94.例如,关键词“您是王老板吗”的标号为1,其拼音为nin shi wang lao ban ma;关键词“斗地主百家乐”的标号为22,其拼音为dou di zhu bai jia le;关键词“老百姓斗地主”的标号为31,其拼音为lao bai xing dou di zhu;关键词“奖励五百欢乐豆”的标号为40,其拼音为jiang li wu bai huan le dou;关键词“大世界炸金花”的标号为50,其拼音为da shi jie zha jin hua;关键词“大世界娱乐城”的标号为100,其拼音为da shi jie yu le cheng;关键词22 31和40都出现了“dou”的发音,倒排索引中“dou”的键值为[22,31,40];同理,“shi”的键值为[1,50,100],“yu”的键值为[50,100],“le”的键值为[22,40,100],“zhu”的键值为[22,31,],“bai”的键值为[22,31]。
[0095]
根据备选音节对关键词集进行搜索时,可以搜索倒排索引,根据该备选音节对应的键值,获取哪些(或哪个)关键词包含该备选音节,从而可以更快获取候选关键词,从而缩短用时。
[0096]
根据关键词集中各关键词包含的备选音节的数量,确定多个关键词作为多个候选关键词。
[0097]
具体地,确定包含每一备选音节的关键词之后,可以统计每个关键词包含的备选音节的数量,即对关键词进行投票(或打分),得到模糊发音空间对所有关键词的投票结果,并筛选出投票最多的第二个数的关键词,作为候选关键词。
[0098]
本发明实施例通过获取关键词集中包含每一备选音节的关键词,根据关键词集中各关键词包含的备选音节的数量,确定多个关键词作为多个候选关键词,能更快地获得候选关键词,从而能缩短匹配过程的用时,更快地获得待识别语音对应的关键词的识别结果,
达到实时检测的效果。
[0099]
基于上述各实施例的内容,将模糊发音空间,与各候选关键词进行匹配,根据匹配结果,获取待识别语音对应的关键词的识别结果的具体步骤包括:将模糊发音空间,与每一候选关键词进行匹配,获取每一候选关键词对应的匹配程度。
[0100]
具体地,针对每一个候选关键词,进行深度匹配搜索,将该候选关键词与模糊发音空间进行匹配,确定该候选关键词与模糊发音空间的匹配程度,作为该候选关键词对应的匹配程度。
[0101]
根据各候选关键词对应的匹配程度,获取待识别语音对应的关键词的识别结果。
[0102]
具体地,根据各候选关键词对应的匹配程度,可以确定哪个候选关键词与模糊发音空间的匹配程度最高,将该候选关键词作为匹配到的候选关键词。
[0103]
根据匹配到的候选关键词,获取待识别语音对应的关键词的识别结果。
[0104]
本发明实施例通过将每一候选关键词与模糊发音空间进行匹配,获取每一候选关键词对应的匹配程度,根据各候选关键词对应的匹配程度,获取待识别语音对应的关键词的识别结果,能成功处理语音的相似表达、语音中的吞字现象和语音中的发音不准确现象,能提高语音匹配的查全率。
[0105]
基于上述各实施例的内容,将模糊发音空间,与每一候选关键词进行匹配,获取每一候选关键词对应的匹配程度的具体步骤包括:将候选关键词中的每个音节,与每一备选音节进行匹配,获取匹配的音节的数量。
[0106]
具体地,针对每一个候选关键词,进行深度匹配搜索,将该候选关键词与模糊发音空间进行匹配,可以将该候选关键词中的每个音节,与模糊发音空间中的每一备选音节进行匹配,确定该音节是否与某一备选音节相同。
[0107]
如果相同,说明匹配;如果不同,说明不匹配。
[0108]
根据该候选关键词中的各个音节的匹配结果,可以确定该候选关键词匹配的音节的数量,还可以获取匹配的各音节的置信度。
[0109]
根据匹配的各音节的置信度,可以获取匹配的各音节的置信度总和。
[0110]
可以根据是否音节是否匹配,获取匹配的音节的数量,还可以利用搜索矩阵,获取匹配的音节的数量及匹配的各音节的置信度总和。
[0111]
搜索矩阵一共有m行,n列。其中m为候选关键词中音节的数量,n为待识别语音中的音节数量或模糊发音空间中的备选发音组的组数。
[0112]
例如,候选关键词“加一下您微信”的发音序列为“jia yi xia nin wei xin”,一共6个发音,故m=6;待识别语音为“方便扫下ning微信吗”,共有8个音节,故n=8。
[0113]
搜索矩阵的第i行第j列代表候选关键词中的第1~i个发音(即音节)与模糊发音空间中的1~j个备选发音组进行深度匹配后,成功匹配的发音的置信度总和。深度匹配的过程可以转化为填写搜索矩阵的过程。
[0114]
当搜索矩阵被填写完全后,说明深度搜索结束,统计位于搜索矩阵右下角的元素是置信度变化点的个数,作为候选关键词与模糊发音空间匹配成功的音节的数量。
[0115]
填写搜索矩阵的具体步骤包括:
[0116]
搜索矩阵的第1列填写方法:若候选关键词的第i个发音在模糊发音空间第一列中出现,则搜索矩阵第1列第i行的数值为发音在模糊发音空间中的置信度,否则为0。
[0117]
搜索矩阵的第1行填写方法:若候选关键词的第一个字的发音在模糊发音空间的第j列中,则搜索矩阵的第1行第j列的数值为发音在模糊空间中的置信度,否则为0。
[0118]
搜索矩阵的剩余元素填写方法:当候选关键词的第i个发音在模糊发音空间中的第j个备选发音组中,则搜索矩阵的第i行第j列的数值为第i-1行第j-1列数值加该发音在模糊空间中的置信度。当候选关键词的第i个发音不在模糊空间中的第j个备选发音组中,则搜索矩阵的第i行第j列的数值为第i-1行第j列与第i行第j-1列数值的最大值。
[0119]
例如,候选关键词“加一下您微信”的发音序列为“jia yi xia nin wei xin”,根据该候选关键词快速搜索模糊发音空间如表2所示。
[0120]
表2模糊发音空间快速搜索示意
[0121][0122]
如表2所示,表2中的第1至4行为模糊发音空间,第5至10行为搜索矩阵;表2左侧的拼音为候选关键词的发音序列。从搜索矩阵右下角回溯置信度变化点,可以得到匹配到的发音数量为4。
[0123]
具体回溯方法包括,指针首先指向搜索矩阵的右下角,然后分别观察其左边和上边的元素,如果存在一个元素与当前元素相等,则指针向该元素对应的方向移动;当指针指向的元素与左方和上方元素均不相等,则标记该位置为置信度变化点,指针向左上方移动。以此类推,直到指针移动到搜索矩阵左上角。例如:搜索矩阵右下角元素值为1.43,其的左方元素也是1.43,则指针向左移动。
[0124]
可以看出,候选关键词为“加一下您微信”,输入语音为“方便扫下ning微信吗”。其中关键词中为“加”,语音中为“扫”,属于相同语句的相似表达。关键词中为“一下”,语音中为“下”,属于吞字。关键词中为“您”,语音中是“ning”,属于发音不标准。本例可以证明,本搜索算法能够在以上三种干扰情况下完成语音的匹配。
[0125]
本发明实施例可以自动匹配语句的相似表达,可以检测输入语音中与待匹配语句表达相似的语句,能够正确处理吞字、多字的情况,可以提高查全率。例如:“加一下微信”说成“加下微信”或“加我一下微信”都可以识别。并且,使用模糊发音空间快速搜索方法,可以
同时从发音接近度和匹配程度两个维度搜索最优匹配结果,可以调整参数,达到不同的匹配效果,满足不同的场景需求。
[0126]
根据匹配的音节的数量和候选关键词包括的音节的数量,获取候选关键词对应的匹配程度。
[0127]
具体地,可以将匹配的音节的数量与候选关键词包括的音节的数量的比值,作为候选关键词对应的匹配程度。此时,匹配程度,又可以被称为匹配完整度。
[0128]
根据表2可以获取候选关键词对应的匹配程度为4/6=60%。
[0129]
还可以根据匹配的音节的数量和置信度总和,以及候选关键词包括的音节的数量,获取候选关键词对应的匹配程度。
[0130]
例如,可以将匹配的音节的数量乘以匹配的音节的置信度总和,然后除以候选关键词包括的音节的数量,获取选关键词对应的匹配程度。根据表2可以获取候选关键词对应的匹配程度为1.43
×
4/6=0.95。
[0131]
本发明实施例通过获取候选关键词与模糊发音空间匹配的音节的数量,根据匹配的音节的数量和候选关键词包括的音节的数量,获取候选关键词对应的匹配程度,能成功处理语音的相似表达、语音中的吞字现象和语音中的发音不准确现象,能提高语音匹配的查全率。
[0132]
基于上述各实施例的内容,根据各候选关键词对应的匹配程度,获取待识别语音对应的关键词的识别结果的具体步骤包括:若判断获知各候选关键词对应的匹配程度中的最大值大于预设的匹配阈值,则将最大值对应的候选关键词作为待识别语音对应的关键词的识别结果。
[0133]
具体地,各候选关键词对应的匹配程度中的最大值对应的候选关键词,最有可能是待识别语音中的关键词。但如果匹配程度中的最大值较小,说明该最大值对应的候选关键词是待识别语音中的关键词的可能性并不高,可能并不是待识别语音中的关键词。
[0134]
因此,可以判断各候选关键词对应的匹配程度中的最大值是否大于预设的阈值。
[0135]
若大于,则可以将最大值对应的候选关键词作为待识别语音对应的关键词的识别结果,可以输出该最大值对应的候选关键词及该候选关键词对应的匹配程度;若小于,则可以输出空值,作为待识别语音对应的关键词的识别结果,说明待识别语音不含有关键词集中的内容。
[0136]
预设的阈值,可以根据实际情况设定。对于阈值的具体取值,本发明实施例不作具体限制。
[0137]
例如,将匹配的音节的数量与候选关键词包括的音节的数量的比值,作为候选关键词对应的匹配程度时,可以设定阈值为50%或60%。
[0138]
本发明实施例通过在各候选关键词对应的匹配程度中的最大值大于预设的匹配阈值时,将最大值对应的候选关键词作为待识别语音对应的关键词的识别结果,能获取更准确的识别结果。
[0139]
下面对本发明实施例提供的识别语音中关键词的装置进行描述,下文描述的识别语音中关键词的装置与上文描述的识别语音中关键词的方法可相互对应参照。
[0140]
图2是根据本发明实施例提供的识别语音中关键词的装置的结构示意图。基于上述各实施例的内容,如图2所示,该装置包括语音识别模块201和空间搜索模块202,其中:
[0141]
语音识别模块201,用于将待识别语音输入至语音识别模型,输出待识别语音对应的模糊发音空间;
[0142]
空间搜索模块202,用于根据模糊发音空间,对关键词集进行搜索,获取待识别语音对应的关键词的识别结果;
[0143]
其中,语音识别模型,是根据语音样本的样本语音信号以及对应的发音进行训练后得到的;发音是根据语音样本预先确定的,并与样本语音信号一一对应;模糊发音空间,用于表示待识别语音对应的多种语音识别结果。
[0144]
具体地,语音识别模块201和空间搜索模块202电连接。
[0145]
语音识别模块201将待识别语音输入至语音识别模型,语音识别模型并不是输出唯一的识别结果,而是输出多种可能的语音识别结果,组成模糊发音空间。
[0146]
语音识别模块201可以包括音节分割子模块和音节识别子模块。
[0147]
音节分割子模块,用于将待识别语音分割成若干个音节。
[0148]
音节识别子模块,用于获取待识别语音包括的每个音节的备选发音组,组成模糊发音空间。
[0149]
空间搜索模块202根据模糊发音空间,对关键词集进行搜索,可以获取与模糊发音空间的匹配程度最高的关键词,作为匹配到的关键词;根据匹配到的关键词,获取待识别语音对应的关键词的识别结果。
[0150]
空间搜索模块202可以包括投票子模块和深度匹配子模块。
[0151]
投票子模块,用于根据模糊发音空间中的各备选音节,对关键词集进行搜索,获取多个候选关键词。
[0152]
深度匹配子模块,用于将模糊发音空间,与各候选关键词进行匹配,根据匹配结果,获取待识别语音对应的关键词的识别结果。
[0153]
投票子模块可以包括搜索单元和投票单元。
[0154]
搜索单元,用于根据每一备选音节搜索关键词集,获取关键词集中包含备选音节的若干个关键词;
[0155]
投票单元,用于根据关键词集中各关键词包含的备选音节的数量,确定多个关键词作为多个候选关键词。
[0156]
深度匹配子模块可以包括匹配单元和输出单元。
[0157]
匹配单元,用于将模糊发音空间,与每一候选关键词进行匹配,获取每一候选关键词对应的匹配程度;
[0158]
输出单元,用于根据各候选关键词对应的匹配程度,获取待识别语音对应的关键词的识别结果。
[0159]
匹配单元包括匹配搜索子单元和匹配程度获取子单元。
[0160]
匹配搜索子单元,用于将候选关键词中的每个音节,与每一备选音节进行匹配,获取匹配的音节的数量。
[0161]
匹配程度获取子单元,用于根据匹配的音节的数量和候选关键词包括的音节的数量,获取候选关键词对应的匹配程度。
[0162]
输出单元,具体用于若判断获知各候选关键词对应的匹配程度中的最大值大于预设的匹配阈值,则将最大值对应的候选关键词作为待识别语音对应的关键词的识别结果。
[0163]
本发明实施例提供的识别语音中关键词的装置,用于执行本发明上述各实施例提供的识别语音中关键词的方法,该识别语音中关键词的装置包括的各模块实现相应功能的具体方法和流程详见上述识别语音中关键词的方法的实施例,此处不再赘述。
[0164]
该识别语音中关键词的装置用于前述各实施例的识别语音中关键词的方法。因此,在前述各实施例中的识别语音中关键词的方法中的描述和定义,可以用于本发明实施例中各执行模块的理解。
[0165]
本发明实施例通过语音识别模型对待识别语音进行识别,获取多种可能的语音识别结果,组成模糊发音空间,将模糊发音空间和预先建立的关键词集进行匹配搜索,输出匹配到的关键词,使用模糊发音空间搜索的方法,能够成功处理语音的相似表达、语音中的吞字现象和语音中的发音不准确现象,能提高语音匹配的查全率。
[0166]
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、存储器(memory)302和总线303;其中,处理器301和存储器302通过总线303完成相互间的通信;处理器301用于调用存储在存储器302中并可在处理器301上运行的计算机程序指令,以执行上述各方法实施例提供的识别语音中关键词的方法,该方法包括:将待识别语音输入至语音识别模型,输出待识别语音对应的模糊发音空间;根据模糊发音空间,对关键词集进行搜索,获取待识别语音对应的关键词的识别结果;其中,语音识别模型,是根据语音样本的样本语音信号以及对应的发音进行训练后得到的;发音是根据语音样本预先确定的,并与样本语音信号一一对应;模糊发音空间,用于表示待识别语音对应的多种语音识别结果。
[0167]
此外,上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0168]
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的识别语音中关键词的方法,该方法包括:将待识别语音输入至语音识别模型,输出待识别语音对应的模糊发音空间;根据模糊发音空间,对关键词集进行搜索,获取待识别语音对应的关键词的识别结果;其中,语音识别模型,是根据语音样本的样本语音信号以及对应的发音进行训练后得到的;发音是根据语音样本预先确定的,并与样本语音信号一一对应;模糊发音空间,用于表示待识别语音对应的多种语音识别结果。
[0169]
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的识别语音中关键词的方法,该方法包括:将待识别语音输入至语音识别模型,输出待识别语音对应的模糊发音空间;根据模糊发音空间,对关键词集进行搜索,获取待识别语音对应的关键词的识别结
果;其中,语音识别模型,是根据语音样本的样本语音信号以及对应的发音进行训练后得到的;发音是根据语音样本预先确定的,并与样本语音信号一一对应;模糊发音空间,用于表示待识别语音对应的多种语音识别结果。
[0170]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0171]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0172]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。