文章原名:Order-Embeddings of Images and Language
作者:Ivan Vendrov, Ryan Kiros, Sanja Fidler, Raquel Urtasun
单位:Department of Computer Science, University of Toronto
译者:谢若冰
链接:http://arxiv.org/abs/1511.06361(可戳下方原文链接)
【导读】
这篇文章是发表在ICLR2016上的论文,第一作者是多伦多大学的Ivan Vendrov。论文提出了一种新的基于偏序关系的分布式表示向量构建方法,可以用于图像与文本等领域,并在上下位关系预测(hypernym prediction)、标题-图像检索(caption-imageretrieval)和自然语言推理(textual entailment / naturallanguage inference)等三个任务上进行了实验,取得了不错的效果。
文章的最大亮点在于基于偏序关系的向量(order-embedding)的提出。以词向量为例,为了解决数据稀疏性问题,分布式表示将词映射到一个低维连续的向量空间中,使用空间中的向量对词进行表示。如2013年横空出世的Word2vec工具采用神经网络模型CBOW和Skip-gram,使得词表示学习在效率与效果上都得到了巨大的提升。这些基于分布式表示的模型绝大多数都采用对称相似度作为距离度量方式与训练目标。并遵循这样一个假设:相近的词/图片/句子应该被映射至低维向量空间中相近的位置,即相似的词/图片/句子在向量空间中应该能够有一定的聚类现象。
但是在本文中,作者提出了一种全新的基于偏序关系的向量学习方法,将维持具有层次关系的向量之间的偏序关系作为学习的目标。作者认为,上下位关系预测、标题-图像检索和自然语言推理等任务本质上都是学习图片和文字上偏序关系的实例。如下图所示,作者认为图片标题即为图片的一种抽象表达,而标题本身的表达也抽象形成一个层次结构,这种层次结构即为一种偏序关系。上下位关系预测和自然语言推理等任务也自然能够转化为一个学习偏序关系的任务。
【模型】
具体地,假设x和y为两个实体。x和y之间具有偏序关系,当且仅当实体向量的每个元素都具有同向的偏序关系,如下式:
但是这样的限制过于严格,真实情况下很难达到。所以我们在学习的过程中需要将严格的限制转化为惩罚函数,如下式:
然后将整个学习目标转化为最小化一个基于边际的损失函数,如下式:
根据偏序关系,我们希望x的每个元素都应大于y,所以需要惩罚y中每个元素比x大的情况。需要注意的是,惩罚函数中有max{0, y-x},说明当满足y小于x后,符合偏序的要求,具体小的数值对惩罚项没有影响。
【实验】
论文在在上下位关系预测、标题-图像检索和自然语言推理等三个任务上进行了实验。以上下位关系预测任务为例,作者使用了WordNet的上下位关系作为测试,比传统的方法得到了更好的结果。从下图样例中我们可以发现,越抽象的概念越靠近原点,而词之间的上下位关系也可以由此得到展现。
标题-图像检索任务分为标题检索和图像检索两个任务。实验结果表示论文的模型在上述两个任务中,与基于对称相似度的模型相比都有提升。另外,作者发现了一个有趣的现象:在word2vec学习到的基于对称相似度的语义空间中,有v(king)-v(man)=v(queen)-v(woman)的现象;而本文提出的order embedding也有类似的现象,只是加法对应于max操作,而减法对应于min操作。下图给出了这种现象在标题-图像检索任务中的一些实例:
来源: