电商信息资讯,更全更新信息实报!
主页 > 知识 > > 正文

构建工业知识图谱平台到底有没有用?

来源:网络整理 发布时间:2021-09-06 13:01 标签:实体关系图数据抽取
浏览:

本文根据转转张青楠老师,在DataFun AI+ Talk中所分享的《二手电商知识图谱构建以及在价格模型中的应用》编辑整理而成。

一、知识图谱概述

这次的分享主要从以下四个部分:知识图谱概述、知识图谱构造、转转二手电商知识图谱、在价格模型中的应用。

1.1 什么是知识图谱

知识图谱是谷歌在2012年提出来的,最初的目的是优化其搜索引擎。在现实世界中是存在很多的实体的,各种人、物,他们之间是相互联系的。知识图谱就是对这个真实世界的符号表达,描述现实世界中存在的一些概念,以及它们之间的联系。具体来说是一个具有属性的实体,通过关系连接而成的网状知识库。

1.2 知识图谱的基本组成

在电商的知识图中,包括用户、商家、商品,他们带有各自的属性,彼此之间又互相联系。知识图谱的基本组成三要素:实体、属性、关系。实体-关系-实体 三元组;实体-属性-属性值三元组,在电商的知识图谱中,用户和商品都是实体。

在知识图谱中,有一类特殊的实体叫做本体,也叫做概念或语义类。它是一些具共性的实体构成的集合。比如说,比尔盖茨和乔布斯都是人,微软和苹果都是公司。

二、知识图谱构建

目前的知识图谱分为两类。一类是开放域的知识图谱,另一类是垂直领域的知识图谱。比如谷歌为搜索引擎所建立的知识图谱就属于开放域的。垂直领域的知识图谱,比如说金融的,电商的。

首先就是要先处理数据。互联网上的数据基本上都是结构化的,非结构化的和半结构化的。结构数据一般就是公司的业务数据。这些数据都存储到数据库里,从库里面抽取出来做一些简单的预处理就可以拿来使用。半结构化数据和非结构化数据,比如对商品的描述,或是标题,可能是一段文本或是一张图片,这就是一些非结构化数据了。但它里面是存储了一些信息的,反映到的是知识图谱里的一些属性。所以需要对它里面进行一个抽取,这是构建知识图谱中比较费时费力的一个工作。

从数据里需要抽取的其实就是之前所提到的实体、属性、关系这些信息。对于实体的提取就是NLP里面的命名实体识别。这里相关的技术都比较成熟了,从之前传统的人工词典规则的方法,到现在机器学习的方法,还有深度学习的一些使用。比如说,从一段文本里面,我们提取出来比尔盖次这个实体以及微软这个实体,然后再进行一个关系提取。比尔盖次是微软的创始人,会有这么一个对应的关系。另外还有属性提取,比如比尔盖茨的国籍是美国。在这些提取完成之后都是一些比较零散的信息,然后在再加之前用结构化信息所拿到的东西以及从第三方知识库里面所拿到的信息做一个融合。

另外还需要做的是实体对齐和实体消歧。

关于实体对齐。举例来说,比尔盖茨这四个字是中文名称,Bill Gates是他的英文名称,但其实这两个指的是同一个人。由于文本的不一样,开始的时候导致这是两个实体。这就需要我们对它进行实体对齐,把它统一化。

另外是实体消歧。举例来说,苹果是一种水果,但是在某些上下文里面,它可能指的是苹果公司。这就是一个实体歧义,我们需要根据上下文对它进行实体消歧。

在完成了以上步骤之后,接下来就是本体抽取。比如之前提到的微软和苹果,它们的实体是公司。从文本里面可能无法直接提取出来,它们是公司。那么需要一些方法对他们进行抽取。然后搭建出本体库,比如说公司是一个机构,它是有这种上下流的关系的。对于平级的也需要计算一个他们的相识度,比如比尔盖茨和乔布斯在实体层面,他们是比较相似的。他们都属于人这个实体。他们跟公司的差别还是挺大的,所以需要一个相似度的计算。

在以上步骤完成之后需要对知识库进行质量评估,这是一个避免不了的人工步骤。在做完质量评估以后,最终形成知识图谱。形成知识图谱以后,有些关系可能是无法直接得到的,然后需要进行知识推理,这可以对知识图谱进行扩展。比如,猫是猫科动物。猫科动物是哺乳动物。这就可以推理出来,猫是哺乳动物。但是这个推理也不是随便就可以推出来的。比如,比尔盖茨是美国人,比尔盖茨创建了一个公司,但这个公司并不一定是美国的。

发表评论
验证码: 点击我更换图片

注:网友评论仅供其表达个人看法,并不代表本站立场。

近期活动

更多 >

热门文章

  • 为电商而生的知识图谱,如何感应用户需
    为电商而生的知识图谱,如何感应用户需

    为电商而生的知识图谱,如何感应用户需

    如何建设一个比较通用的面向应用的概念体系,支持根据业务需求提供查询服务,已经迫在眉睫。mining流程后持续扩大挖掘覆盖),目前数据已经作为类目预...

  • 2020年国内十大生鲜电商平台排名!
    2020年国内十大生鲜电商平台排名!

    2020年国内十大生鲜电商平台排名!

    目前除了我们熟知的天猫生鲜、京东生鲜等生鲜平台,还有哪些生鲜电商o2o平台呢?接下来我们就一起来看看2020年十大生鲜电商平台有哪些!每日一淘是一个...

  • 阿里知识图谱首次曝光:每天千万级拦截
    阿里知识图谱首次曝光:每天千万级拦截

    阿里知识图谱首次曝光:每天千万级拦截

    阿里妹导读:借助阿里知识图谱的建设,阿里电商平台管控从过去的“巡检”模式升级为发布端实时逐一检查。在海量的商品发布量的挑战下,最大可能地...

  • 互联网+生鲜电商解决方案 生鲜电商O2O解
    互联网+生鲜电商解决方案 生鲜电商O2O解

    互联网+生鲜电商解决方案 生鲜电商O2O解

    生鲜电商O2O解决方案(38页珍藏版)》请在人人文库网上搜索。度上限制了生鲜电商的发展。方的农业生鲜交易平台存在小、弱格局。、配送企业、线下门...

  • 详细解读知识图谱的这一人工智能技术分
    详细解读知识图谱的这一人工智能技术分

    详细解读知识图谱的这一人工智能技术分

    相比于传统人工智能,知识图谱时代基于向量的知识表示方法不仅能够以三元组为基础的较为简单实用的知识表示方法满足规模化扩展的要求,还能够作为...

人物

更多 >
人物马云:区块链不是泡沫
人物李彦宏:百度有自己的价值观 未来“AI战
人物吴欣鸿:美图秀秀下一个十年发力图片社
人物最贵的离职:陆奇带走了百度900亿市值
人物刘强东代言上瘾,这次为核桃代言

专题

更多 >
广告位