物联网

Facebook开源Blender,更加智能化且更人性化

发布时间:2020-05-10 00:10:00 所属栏目:物联网 阅读:

(文章来源:教育新闻网)
       Facebook的AI和机器学习部门Facebook AI Research(FAIR)今天详细介绍了名为Blender的综合AI聊天机器人框架的工作。FAIR声称,Blender是GitHub上最大的开放域聊天机器人,它是GitHub上开放源代码最多的聊天机器人,其性能优于现有的生成对话的方式,同时“让人感到更人性化”。FAIR说Blender是将同情心,知识和个性结合成一个系统的多年研究的高潮。为此,受益于改进的解码和技能融合技术的基础模型包含多达94亿个参数(定义给定问题的技能的配置变量),是以前系统的3.6倍。

Blender承诺在企业,工业或面向消费者的环境中,与对话式AI系统(如Alexa,Siri和Cortana)的交互将比以往更加自然。那是因为他们能够提出并回答各种各样的问题。显示有关特定主题的知识;并根据情况表达同情,认真或好玩的情绪。为了实现Blender的最先进性能,FAIR的研究人员专注于两个工程步骤:混合技巧和生成策略。

“混合技能”是指选择性能优于缺少调整功能的较大模型的任务。正如FAIR研究人员在论文中指出的那样,可以通过对数据模型进行微调(强调所需的对话技巧)来实现聊天机器人的改进。事实证明,调整还可以最大程度地减少从大数据集中学到的不良特性,例如毒性。关于生成策略,选择解码算法(用于从语言模型生成文本的算法)会对聊天机器人的响应产生巨大影响。由于漫游器响应的时间长度倾向于与人类对质量的判断相对应,因此需要达到适当平衡的解码器。响应时间过短通常会被认为是呆板或缺乏兴趣,而响应时间过长则表示感到困惑或分心。

在这些工程步骤的过程中,研究人员测试了三种类型的模型体系结构,所有这些模型体系结构均以Transformers为基础。变压器-Google的一项创新-包含神经元(数学功能),这些神经元以层状排列,可以传输来自输入数据的信号并调整每个连接的强度(权重),就像所有深度神经网络一样。这就是他们提取特征并学习进行预测的方式,但是变形金刚也有注意的地方。这意味着每个输出元素都连接到每个输入元素,并且它们之间的权重是动态计算的。

首先是一个检索器模型,该模型在输入对话历史(或上下文)作为输入的情况下,通过对大量候选响应进行评分并输出评分最高的一个来选择下一个对话响应。FAIR研究人员采用了一种多编码器体系结构,该体系使用每个候选响应所伴随的表示对上下文的特征进行编码,与跨编码器等其他体系结构相比,他们说,这种性能提高了性能,同时保持了“易处理”的计算能力。第二个模型是生成器,它生成响应而不是从固定集中检索响应。从大小上考虑了三个模型,范围从9000万个参数到27亿个参数到94亿个参数。

第三个模型试图解决生成器的问题,即生成器合成重复响应和“使知识”“半透明”的趋势。它采用了“检索和精炼”(RetNRef)方法,其中上述检索模型在提供对话历史记录时会产生响应,然后将其附加到生成器的输入序列中。通过这种方式,生成器学习了何时复制来自检索器的响应元素,何时不复制,从而可以输出更有趣,引人入胜且“充满活力”的响应。FAIR团队将“向导生成”模型与另一个检索器配对,一起确定了何时将知识纳入聊天机器人的响应中。这两个模型产生一组初始知识候选者,然后对这些候选者进行排名,然后选择一个句子并将其用于条件响应的生成。分类器根据对话选择是否执行检索,从而避免在不需要时提供知识。

对于生成模型,FAIR研究人员使用波束搜索解码器方法来生成对给定对话上下文的响应。波束搜索维护一组称为假设的部分解码序列,这些序列被附加以形成序列,然后进行评分,因此最佳序列冒泡到顶部。为了控制聊天机器人的响应长度,FAIR团队考虑了两种方法:对最小生成长度的硬约束和预测响应长度并将最小生成长度约束设置为其相应预测的分类器。后者更为复杂,但导致对问题的回答的长度可变,从而确保聊天机器人在看起来适当时可以提供较长的回答。

AL t4518531188917248 Facebook开源Blender,更加智能化且更人性化

为了准备组成Blender的各种模型,研究人员首先进行了预训练,这是针对特定任务调节机器学习模型的步骤。他们使用了Facebook自己的Fairseq,该工具包支持自定义语言模型的训练,其Reddit语料库中的数据样本包含15亿条评论(其中两套360,000条评论分别用于验证和测试),并为已知的非英语bot修剪。 subreddit,已删除的评论,带有URL的评论以及一定长度的评论。