本发明涉及文本生成,特别是指一种根据关键词生成对应的目标生成句子的方法及装置。
背景技术:
1、在语言教学和习得领域,语言教员和教科书编撰者需要用例句来制作教材,这些例句可以是综合设计的,也可以是来自真实资源的。在大多数情况下,他们需要为不同学习阶段的语言学习者创建适当的例句,只使用特定复杂程度的单词,这是非常费时费力的。
2、自动生成辅助语言学习的例句可以帮助教育者和语言学习者获得、分析和选择合适的例句。此外,它还可以协助分级阅读材料的开发。
3、对于语言学习者来说,好的例句不仅要求流利多样,而且要与学习者的水平相匹配,尤其是词汇的水平。因此,在好例句的生成中,有必要有效地控制词汇的复杂性,这是一项可控句子生成的任务。
4、可控句子生成是自然语言生成的一个重要领域,包含一系列旨在根据给定的可控要求生成句子的任务。可控句子生成系统通常专注于控制句子属性,如情感、主题或关键词,生成具有特定格式的诗歌或对联,甚至从结构化数据中预测描述。然而,很少有作品致力于严格控制句子生成的词汇复杂性。虽然词汇简化已经在句子简化任务中得到了重视,但它不能严格控制生成句子的词汇复杂性水平,导致生成的句子不能很好的达到用户的预期,句子生成的实用性较低。
技术实现思路
1、本发明实施例提供了一种根据关键词生成对应的目标生成句子的方法及装置。所述技术方案如下:
2、一方面,提供了一种根据关键词生成对应的目标生成句子的方法,该方法由电子设备实现,该方法包括:
3、构建初始文本生成模型;
4、获取训练样本,通过训练样本对所述初始文本生成模型进行训练,得到训练完毕的待评测文本生成模型;
5、基于预设的基线模型,对所述待评测文本生成模型进行评测,确定通过评测的文本生成模型;
6、获取目标生成句子的关键词以及词汇复杂度等级;
7、将所述关键词以及词汇复杂度等级输入到所述文本生成模型中,生成所述关键词对应的目标生成句子。
8、可选地,所述获取训练样本,包括:
9、获取原始语料,对所述原始语料进行分句处理,选取样本句子;
10、提取所述样本句子中的样本关键词;
11、获得提取的样本关键词所属的词汇复杂度等级。
12、可选地,所述基于预设的基线模型,对所述待评测文本生成模型进行评测,确定通过评测的文本生成模型,包括:
13、将测试样本集输入预设的基线模型,得到基线模型输出的基线句子,将所述测试样本集输入待评测文本生成模型,得到待测评文本生成模型输出的待测评句子;
14、根据所述基线句子,确定所述基线句子对应的第一关键词约束评价指标、第一词汇复杂度约束评价指标以及第一复杂度等级约束评价指标;
15、根据所述待测评句子,确定所述待测评句子对应的第二关键词约束评价指标、第二词汇复杂度约束评价指标以及第二复杂度等级约束评价指标;
16、当所述第二关键词约束评价指标大于或等于所述第一关键词约束评价指标,且所述第二词汇复杂度约束评价指标大于或等于所述第一词汇复杂度约束评价指标,且所述第二复杂度等级约束评价指标大于或等于所述第一复杂度等级约束评价指标时,将所述待评测文本生成模型确定为通过评测的文本生成模型;否则,将所述待评测文本生成模型确定为未通过评测的文本生成模型。
17、可选地,所述文本生成模型为transformer模型,包括词嵌入层、编码器以及解码器;
18、所述将所述关键词以及词汇复杂度等级输入到所述文本生成模型中,生成所述关键词对应的目标生成句子,包括:
19、将所述关键词以及词汇复杂度等级输入到所述文本生成模型中,根据所述关键词以及词汇复杂度等级,生成输入序列;
20、根据所述词嵌入层,确定所述输入序列的分布式向量;
21、根据所述编码器对所述输入序列的分布式向量进行编码,得到隐状态序列;
22、根据所述解码器构建语言模型,利用所述隐状态序列,确定目标生成句子的每个词,进而确定目标生成句子。
23、可选地,所述分布式向量表示为,其中,为关键词本身的分布式向量表示,为每个关键词对应的位置信息的分布式向量表示,为综合复杂度等级的分布式向量表示;所述综合复杂度等级由关键词所属的词汇复杂度等级以及输入的词汇复杂度等级组成。
24、可选地,所述根据所述解码器构建语言模型,利用所述隐状态序列,确定目标生成句子的每个词,包括:
25、根据所述隐状态序列中的关键词以及词汇复杂度等级,对目标生成句子进行词汇复杂度控制;
26、根据所述隐状态序列中的关键词的数量,对目标生成句子进行句子长度控制;
27、根据对目标生成句子进行的句子长度控制,对目标生成句子进行句法复杂度控制;
28、基于对目标生成句子的词汇复杂度控制、句子长度控制、句法复杂度控制、生成的目标生成句子的前t-1个词以及第t个词的词汇复杂度等级,确定目标生成句子的第t个词。
29、可选地,所述词汇复杂度控制包括关键词约束、词汇复杂度约束以及复杂度等级约束;
30、所述根据所述隐状态序列中的关键词以及词汇复杂度等级,对目标生成句子进行词汇复杂度控制,包括:
31、根据下述公式(1)(2),对目标生成句子进行关键词约束:
32、 (1)
33、 (2)
34、其中,表示关键词约束条件,为输入的关键词的集合, ,表示目标生成句子序列,为目标生成句子序列的长度,表示取任意元素,i表示关键词的次序;
35、根据下述公式(3)(4),对目标生成句子进行词汇复杂度约束:
36、 (3)
37、 (4)
38、其中,表示词汇复杂度约束条件,,表示不同词汇复杂度等级对应的词汇子集构成整体词汇的集合,复杂度等级集合,表示复杂度等级对应的词汇子集;
39、根据下述公式(5)(6),对目标生成句子进行复杂度等级约束:
40、 (5)
41、 (6)
42、其中,表示复杂度等级约束条件,表示目标生成句子序列中的词汇次序。
43、另一方面,提供了一种根据关键词生成对应的目标生成句子的装置,该装置应用于根据关键词生成对应的目标生成句子的方法,该装置包括:
44、构建模块,用于构建初始文本生成模型;
45、训练模块,用于获取训练样本,通过训练样本对所述初始文本生成模型进行训练,得到训练完毕的待评测文本生成模型;
46、评测模块,用于基于预设的基线模型,对所述待评测文本生成模型进行评测,确定通过评测的文本生成模型;
47、获取模块,用于获取目标生成句子的关键词以及词汇复杂度等级;
48、生成模块,用于将所述关键词以及词汇复杂度等级输入到所述文本生成模型中,生成所述关键词对应的目标生成句子。
49、可选地,所述训练模块,用于:
50、获取原始语料,对所述原始语料进行分句处理,选取样本句子;
51、提取所述样本句子中的样本关键词;
52、获得提取的样本关键词所属的词汇复杂度等级。
53、可选地,所述测评模块,用于:
54、将测试样本集输入预设的基线模型,得到基线模型输出的基线句子,将所述测试样本集输入待评测文本生成模型,得到待测评文本生成模型输出的待测评句子;
55、根据所述基线句子,确定所述基线句子对应的第一关键词约束评价指标、第一词汇复杂度约束评价指标以及第一复杂度等级约束评价指标;
56、根据所述待测评句子,确定所述待测评句子对应的第二关键词约束评价指标、第二词汇复杂度约束评价指标以及第二复杂度等级约束评价指标;
57、当所述第二关键词约束评价指标大于或等于所述第一关键词约束评价指标,且所述第二词汇复杂度约束评价指标大于或等于所述第一词汇复杂度约束评价指标,且所述第二复杂度等级约束评价指标大于或等于所述第一复杂度等级约束评价指标时,将所述待评测文本生成模型确定为通过评测的文本生成模型;否则,将所述待评测文本生成模型确定为未通过评测的文本生成模型。
58、可选地,所述文本生成模型为transformer模型,包括词嵌入层、编码器以及解码器;
59、所述生成模块,用于:
60、将所述关键词以及词汇复杂度等级输入到所述文本生成模型中,根据所述关键词以及词汇复杂度等级,生成输入序列;
61、根据所述词嵌入层,确定所述输入序列的分布式向量;
62、根据所述编码器对所述输入序列的分布式向量进行编码,得到隐状态序列;
63、根据所述解码器构建语言模型,利用所述隐状态序列,确定目标生成句子的每个词,进而确定目标生成句子。
64、可选地,所述分布式向量表示为,其中,为关键词本身的分布式向量表示,为每个关键词对应的位置信息的分布式向量表示,为综合复杂度等级的分布式向量表示;所述综合复杂度等级由关键词所属的词汇复杂度等级以及输入的词汇复杂度等级组成。
65、可选地,所述生成模块,用于:
66、根据所述隐状态序列中的关键词以及词汇复杂度等级,对目标生成句子进行词汇复杂度控制;
67、根据所述隐状态序列中的关键词的数量,对目标生成句子进行句子长度控制;
68、根据对目标生成句子进行的句子长度控制,对目标生成句子进行句法复杂度控制;
69、基于对目标生成句子的词汇复杂度控制、句子长度控制、句法复杂度控制、生成的目标生成句子的前t-1个词以及第t个词的词汇复杂度等级,确定目标生成句子的第t个词。
70、可选地,所述词汇复杂度控制包括关键词约束、词汇复杂度约束以及复杂度等级约束;
71、所述生成模块,用于:
72、根据下述公式(1)(2),对目标生成句子进行关键词约束:
73、 (1)
74、 (2)
75、其中,表示关键词约束条件,为输入的关键词的集合, ,表示目标生成句子序列,为目标生成句子序列的长度,表示取任意元素,i表示关键词的次序;
76、根据下述公式(3)(4),对目标生成句子进行词汇复杂度约束:
77、 (3)
78、 (4)
79、其中,表示词汇复杂度约束条件,,表示不同词汇复杂度等级对应的词汇子集构成整体词汇的集合,复杂度等级集合,表示复杂度等级对应的词汇子集;
80、根据下述公式(5)(6),对目标生成句子进行复杂度等级约束:
81、 (5)
82、 (6)
83、其中,表示复杂度等级约束条件,表示目标生成句子序列中的词汇次序。
84、另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述根据关键词生成对应的目标生成句子的方法。
85、另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述根据关键词生成对应的目标生成句子的方法。
86、本发明实施例提供的技术方案带来的有益效果至少包括:
87、本发明实施例中,构建初始文本生成模型;获取训练样本,通过训练样本对初始文本生成模型进行训练,得到训练完毕的待评测文本生成模型;基于预设的基线模型,对待评测文本生成模型进行评测,确定通过评测的文本生成模型;获取目标生成句子的关键词以及词汇复杂度等级;将关键词以及词汇复杂度等级输入到文本生成模型中,生成关键词对应的目标生成句子。通过该方法,可以针对输入的一个或多个关键词,以及目标生成句子中词汇的复杂度等级,生成词汇复杂度可控且具有较好的流利度和语义一致性的句子文本,达到用户的语气,提高了文本生成的实用性。
民生类关键词青色衬衫关键词沧州关键词快照dva新作关键词航天领域关键词搜凉席关键词却又忘词 关键词超纤关键词sana画师关键词情感定位关键词行业关键词音乐国外2020 关键词赴美生子关键词关键词优化库热度关键词优化中国关键词交外套各类关键词婚庆淘宝关键词怎么创关键词关键词造句子小偷的关键词差生表扬关键词武汉360关键词大学英语关键词新征程 关键词哒哒猫关键词星空蓝关键词珍珠泪关键词高频关键词阈值围巾类关键词关键词海绵宝宝池鱼翻唱关键词关键词用句号安徽推广关键词张爱玲人物关键词蜡烛关键词大全作文 关键词 组合wish 首饰 关键词做关键词框架宽松长裤关键词追星购物关键词触发关键词系统古玩文玩关键词汽车镀膜关键词提取关键词联系选关键词软件关键词自动写诗德州网站关键词保守泳衣关键词杂物盒关键词关键词聊天模板散文 关键词 成长关键词影响什么乡村气质关键词seo关键词刷约脸关键词关键词标签seo水杯选取关键词购物戒指关键词索引项 关键词维他关键词语用提取关键词2022税收关键词校本研修关键词seo快速关键词Ios敏感关键词运动康复 关键词加粉关键词泛关键词 优化电压源关键词合唱关键词歌词《担保》电影关键词jk鞋关键词火元素关键词奥様关键词关键词定位原则年度关键词挑战动态的关键词关键词软件制作农膜关键词解析1688购物关键词安徽关键词挖掘关键词出论文创业意义关键词dedecms 文章关键词餐厅经理关键词记java关键词日本下载关键词海外选品关键词小酒仙关键词网络购物关键词王者异次元关键词潮裤关键词莫尔乌托邦关键词快乐寒假关键词固体胶关键词每日使用关键词漫画变身关键词机械外贸关键词梅花窗关键词理疗行业关键词关键词匹配结论魔咒的关键词高薪工作关键词卖家女装关键词5118关键词排名排毒关键词手拿包关键词寒衣节关键词noteexpress关键词分析关键词挖掘词汇蓝搜关键词机械外贸关键词年度游戏关键词豆瓣收录关键词面垫关键词娜娜视频关键词关键词成交插件东北振兴关键词关键词情景描述2021关键词清空关键词的环节海味干货关键词关键词市场选择广告严禁关键词淘宝关键词资源花店场景关键词报春使者关键词抓住关键词例句2108关键词个人关键词搜索护手霜关键词反腐史关键词找音准thymleaf index关键词重生游戏关键词关键词 置顶搜索下拉列表关键词we搜索关键词今年美容关键词引流关键词付费洁妮关键词心态类关键词地理常见关键词深州关键词竞价宝宝生长关键词珍珠淘宝关键词发型介绍关键词背部训练关键词网格架关键词全类目关键词论文关键词动词小吃垂直关键词机械的关键词2018 关键词奋斗e henta 关键词怎样串联关键词婴儿参与关键词关键词催眠委员胶州关键词优化txt合并关键词怎么合成关键词男性用户关键词小孩雨靴关键词省钱关键词画布中式元素关键词教学品质关键词关键词放过自己选产品关键词抓取上课关键词赣州关键词seo检索电影关键词搜索书包关键词鲜明的关键词豆干关键词韩的关键词正面思维关键词认识的关键词营销关键词设计妈妈行业关键词文字关键词筛选陈冠希壁纸关键词关键词黑箱动画洗脸省钱关键词少先队活动关键词人类关键词大全行车常见关键词婚纱兔子关键词写作审题关键词德育原则关键词关键词搜索定义茶叶关键词创意淘宝关键词排布ai立面关键词关键词破断2020 总结 关键词提炼品牌关键词素描套装关键词红旗颂关键词关键词优化幅度序列标注关键词