作者丨张琨学校丨中国科学技巧大学博士生研讨方向丨自然语言处置论文链接:PaperWeekly论文动机语义懂得与语义表征一直是自然语言懂得中基本但十分要害的一个内容,得益于大"> 作者丨张琨学校丨中国科学技巧大学博士生研讨方向丨自然语言处置论文链接:PaperWeekly论文动机语义懂得与语义表征一直是自然语言懂得中基本但十分要害的一个内容,得益于大" />

DRr,DRr

">

作者丨张琨

学校丨中国科学技巧大学博士生

研讨方向丨自然语言处置

论文链接:PaperWeekly

论文动机

语义懂得与语义表征一直是自然语言懂得中基本但十分要害的一个内容,得益于大范围的数据和先进的深度学习技巧,机器在具体的义务上的表示越来越接近人类表示,这其中注意力机制(Attention Mechanism)扮演着一个不可或缺的角色,它可以辅助模型选择出句子中对语义表达最主要的信息,从而生成一种更好地语义表现向量,但是大多数的方式都是一次性地选择出所有主要的信息,该方式显明是不够合理的。

事实上,人在浏览的时候,会依据已学习到的信息去动态选择须要关注的内容。更具体的,认知心理学试验发明人在浏览的时候有两个特色:1)人对句子中的词序其实并没有很敏感,即使打乱次序我们依然能够懂得;2)人在浏览时偏向于浏览多遍要害信息,从而实现对句子语义的准确懂得,如下图的例子:

左图是应用眼球追踪仪得到的注意力散布,可以看到有些词被重复浏览,而有些词并没有被浏览到。右图虽然词序是乱的,但是我们可以应用丰盛的先验知识主动改正这种过错,从而懂得句子要表达的语义。

基于以上的两个现象,本文提出了一种 Dynamic Re-read 机制,通过对重点内容的主动选择和重复浏览,从而实现对语义的准确懂得。

模型

首先是模型框架:

模型可以大致分为三个模块:

  • Input Embedding:应用充分的特点信息对输入的每个词和每个句子进行编码;
  • Dynamic Re-read Mechanism:每一步只关注一个最主要的词,并且重复对主要的内容进行懂得;
  • Label Prediction:对输入的两个句子之际的关系进行分类。
  • 接下来,文章从这三个方面对全部模型进行详细剖析。

    Input Embedding

    对词的编码是一个惯例操作,文本应用了预训练的词向量(glove 840d),字符级别的 embedding,以及一些人工特点,然后将其拼接起来,为了更好地表现每个词的语义信息,本文将其通过一个两层的高速网络(Highway Network),最终得到每个词的语义表现

    众所周知,人类拥有丰盛的先验知识,因此可以应用这些知识直接选择出句子中对语义表现主要的词,但这对模型而言是非常难的,因此,模型首先要做的就是对全部句子的全面懂得,尽可能多地懂得句子信息,这样才干为更好地理 解句子语义奠定基本。

    为了实现这个目标,本文设计了一种修正版的 Stack-RNN,它将 (l-1) 层的输入和输出拼接起来,作为 l 层的输入,通过这种类残差的构造,模型就能够保存所有的信息,该进程可以情势化为:

    其中,

    Dynamic Re-read Mechanism

    该模块重要是受人在浏览时的习惯启示而设计出来的,人在浏览时:1)人对句子中的词序其实并没有很敏感,即使打乱次序我们依然能够懂得;2)人在浏览时偏向于浏览多遍要害信息,从而实现对句子语义的准确懂得。

    因此该模块要实现的目的就是如何依据已学习到的知识在每一步选择一个主要的词进行懂得,以及这些主要的词该如何处置。首先,整体的进程可以情势化为:

    即先通过一个选择函数,在全部输入序列中选出第 t 步的输入,然后将该输入送给一个 GRU,而最后主要信息表现向量应用的是 GRU 的最后一个输出状况,因为 GRU 的在每个时刻的输入是动态变更的,因此作者将其称之为 Dynamic。

    从该公式可以看出选择函数须要的输入有三个:a 句子的全部序列动态 RNN 的前一个时刻的隐层状况b 句子的全局语义表现,因为该模型针对的是句子语义匹配义务,因此作者将 b 句子的全局语义表现作为一个额外的 context 信息,这样模型就能更好的选择出符合高低文的语义信息。

    针对选择函数,作者应用了注意力机制来实现选择进程:

    相当于通过注意力机制在全部序列上盘算出来当前时刻的主要水平散布,然后选择最大的权值对应的词,将这个词作为当前时刻的输入,然后将其送给 GRU。

    但是,该进程有一个问题,最后一个公式选择出索引的操作是不可导的,这里作者做了一个 trick,对 softmax 函数加了一个任意大的常数 β,这样权值最大的就趋近于 1 了,而其他的权值就趋近于 0 了。

    通过这种近似的方式,实现了最后的选择操作,并保证可导。因此,上式可以修正为:

    这就完成了全部动态选择的进程。

    Label Prediction

    经过前两个模块,模型就生成了全局语义表现和局部主要表现,接下来作者通过启示式的拼接操作来整合这些信息,具体可以通过如下公式表现:

    这里是分辨应用了不同的语义表现进行分类,为了是成果更正确,鲁棒性更好,作者设计了一个简略的加权方法将这两个成果进行融会,从而最终进行分类。

    以上就是模型的整体构造。

    该模型的创新点重要集中在 Dynamic Re-read 机制的设计上,作者通过模拟人的浏览习惯,每次只选择一个主要的词,然后对这些主要的词进行重复浏览,从而实现对句子语义的正确懂得。

    试验成果

    首先是试验成果图:

    作者在两个义务,三个数据集上进行了测试,从试验成果上看,模型取得了非常不错的后果。同时为了验证模型的有效性,作者还对每个模块进行了验证,从成果上看,这其中最主要的还是全局的语义表现,主要信息的局部表现是在 最好的成果上进行了晋升,其主要水平要弱于全局语义表现。

    个人推测人在浏览时可以应用丰盛的先验知识去直接挑选主要信息,而这对模型来说就有些艰苦了,他须要首先做的是对句子信息的整体把握,否则很难取得很好的后果。如果单纯只挑主要的信息的话,模型很难对句子语义有一个全面的表达。所以全局的语义表现对模型而言还是非常主要的。

    为了更好地展现模型的才能,作者同时也进行了一些 case study,如下图:

    从成果上看,模型确切选择出了非常主要的词,但同时模型也在反复这些词,有时候甚至只反复一个词,最终导致模型得出过错的结论,这可能跟动态选择的进程是一个非监视的进程有关,这点还是值得细心思考的。

    总结

    本文通过应用人的浏览习惯,将注意力机制一次性选择所有主要信息的机制修正为依据高低文动态选择主要的信息,并通过全局的表现和局部的表现对句子语义进行更全面的懂得表现,是一个非常有意思的工作。依照作者的思路,在相干的范畴,例如 semantic matching, Visual Question Answering 等方面都可以进行一些尝试,这是一个很值得研讨的工作。

    #投 稿 通 道#

    如何才干让更多的优质内容以更短路径达到读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。

    总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或允许以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

    PaperWeekly 激励高校试验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技巧干货。我们的目标只有一个,让知识真正流动起来。

    来稿尺度:

    • 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研讨方向)

    • 如果文章并非首发,请在投稿时提示并附上所有已宣布链接

    • PaperWeekly 默认每篇文章都是首发,均会添加“原创”标记

    投稿方法:

    • 方式一:在PaperWeekly知乎专栏页面点击“投稿”,即可递交文章

    • 方式二:发送邮件至:hr@paperweekly.site ,所有文章配图,请单独在附件中发送

    • 请留下即时接洽方法(微信或手机),以便我们在编纂宣布时和作者沟通

    关于PaperWeekly

    PaperWeekly 是一个推举、解读、讨论、报道人工智能前沿论文结果的学术平台。如果你研讨或从事 AI 范畴,欢迎在大众号后台点击「交换群」,小助手将把你带入 PaperWeekly 的交换群里。

    参加社区:http://paperweek.ly

    微信大众号:PaperWeekly

    新浪微博:@PaperWeekly