电商信息资讯,更全更新信息实报!
主页 > 知识 > > 正文

迈向电商认知智能时代的基石:阿里电商认知图谱揭秘-阿里云开发者社区

来源:网络整理 发布时间:2021-08-08 18:07 标签:阿里知识图谱关系模型
浏览:

今天,搜索推荐事业部认知图谱团队全面总结了目前在构建电商认知图谱方面的探索,主要介绍认知图谱的定义、整体的构建思路,构建过程中一些具体的算法问题,和最终在搜索推荐上的应用。

背景

纵使近年来电商搜索、推荐算法已经取得了长足的进步,但这些算法依然存在许多问题,如推荐中经常为人诟病的重复推荐、缺少新意等。究其本质,这是因为现有的算法主要还是沿袭“商品到商品”的思路,并不是直接从用户需求来驱动的,甚至对用户需求没有一个清晰的定义。而另一方面,理解并满足用户需求又是这些算法所要达成的最终目标,这两者之间的有着天然的隔阂。

为了打破这个隔阂,让搜索、推荐算法更好地认知用户的需求,我们提出建设大规模电商认知图谱(E-commerce ConceptNet),将用户需求显式地表达成图中的节点(称为E-commerce Concept),并将这些需求点和电商领域内的商品、类目,电商外部的通用领域知识等关联起来,为商品认知、用户认知和知识认知提供统一的数据基础,并为下游搜索推荐算法提供新的优化思路和更多的可能性。

什么是e-commerce concept?

前面提到,我们将用户需求称为“e-commerce concept”: 一个有商品需求的概念,一般情况下以一个符合常识,语义完整,语序通顺的短语表示。例如:“连衣裙”、“儿童防走失”、“烧烤必备”、“宝宝保暖”、“波西米亚连衣裙”、“春节庆祝”等。这些concept需要满足如下的基本原则:

image

如上所示,右边的短语均违背了电商概念的基本原则,所以在实际挖掘过程中都是会被过滤掉的。进一步,我们将concept分为了三大类:

E-commerce concept从哪里来?

在明确了定义和基本原则之后,我们需要挖掘大量的concept用以覆盖各式各样的用户需求。目前,我们认为用户在使用淘宝或天猫搜索时输入的搜索词(query)和商品的标题(title)是concept挖掘可以利用的最大来源。而我们的工作主要是要将满足我们上述原则的concept短语,从充满噪音的query、title中挖掘出来,这一步称为“Concept Mining”。

Concept Mining主要分为两步,一个是候选生成(Candidate Generation),另一个是概念正确性判断(Concept Classification)。总体流程如下:

image

其中,候选的生成分为两块,一块是使用AutoPhrase按照字粒度从句子中切分出来的短语信息,一块是通过序列模板抽取器(Sequential Pattern Extractor)做频繁序列挖掘后的模板信息,结合2-gram的统计语言模型,得到concept候选。在得到候选后,我们会利用一个判别模型来融合语言模型embedding,concept的序列信息,以及规则前后缀,pv统计等特征,判断concept是否是符合要求的。

Candidate Generation

我们首先通过pattern抽取器从现有的正负concept中提取pattern并计算权重,然后通过这些pattern,并结合三个窗口内的统计语言模型,进行候选的剪枝,最后生成的候选基本都是符合语序,满足基本常识的。

image

Concept Classification

我们一方面结合一些简单的规则进行特征抽取,另一方面,利用现有的序列特征训练Wide&Deep model,来进行concept的合理性判断。在初始数据的处理方面,由于我们大部分的concept都是短文本,而query和title中大部分的term序列不符合正常的语序,我们还利用长文本的parsing infomation进行候选抽取和截断,训练了ELMo作为基础的语言模型,并在同样长度的gram内调整语序,来得到最佳的序列信息再给判别模型。

发表评论
验证码: 点击我更换图片

注:网友评论仅供其表达个人看法,并不代表本站立场。

近期活动

更多 >

热门文章

  • 为电商而生的知识图谱,如何感应用户需
    为电商而生的知识图谱,如何感应用户需

    为电商而生的知识图谱,如何感应用户需

    如何建设一个比较通用的面向应用的概念体系,支持根据业务需求提供查询服务,已经迫在眉睫。mining流程后持续扩大挖掘覆盖),目前数据已经作为类目预...

  • 2020年国内十大生鲜电商平台排名!
    2020年国内十大生鲜电商平台排名!

    2020年国内十大生鲜电商平台排名!

    目前除了我们熟知的天猫生鲜、京东生鲜等生鲜平台,还有哪些生鲜电商o2o平台呢?接下来我们就一起来看看2020年十大生鲜电商平台有哪些!每日一淘是一个...

  • 阿里知识图谱首次曝光:每天千万级拦截
    阿里知识图谱首次曝光:每天千万级拦截

    阿里知识图谱首次曝光:每天千万级拦截

    阿里妹导读:借助阿里知识图谱的建设,阿里电商平台管控从过去的“巡检”模式升级为发布端实时逐一检查。在海量的商品发布量的挑战下,最大可能地...

  • 互联网+生鲜电商解决方案 生鲜电商O2O解
    互联网+生鲜电商解决方案 生鲜电商O2O解

    互联网+生鲜电商解决方案 生鲜电商O2O解

    生鲜电商O2O解决方案(38页珍藏版)》请在人人文库网上搜索。度上限制了生鲜电商的发展。方的农业生鲜交易平台存在小、弱格局。、配送企业、线下门...

  • 电商平台的知识图谱构建方法、装置、设
    电商平台的知识图谱构建方法、装置、设

    电商平台的知识图谱构建方法、装置、设

    2019.05.2019.01.低的问题。字段对应的类目网络组成电商平台的知识图谱。电商平台的知识图谱构建方法、装置、设备及存储介质的权利要求说明书内容是.电...

人物

更多 >
人物马云:区块链不是泡沫
人物李彦宏:百度有自己的价值观 未来“AI战
人物吴欣鸿:美图秀秀下一个十年发力图片社
人物最贵的离职:陆奇带走了百度900亿市值
人物刘强东代言上瘾,这次为核桃代言

专题

更多 >
广告位