电商信息资讯,更全更新信息实报!
主页 > 知识 > > 正文

项目实战:如何构建知识图谱

来源:网络整理 发布时间:2021-12-01 09:07 标签:实体关系图数据融合
浏览:

实践了下怎么建一个简单的知识图谱,两个版本,一个从 0 开始(start from scratch),一个在 CN-DBpedia 基础上补充,把 MySQL,PostgreSQL,Neo4j 数据库都尝试了下。自己跌跌撞撞摸索可能踩坑了都不知道,欢迎讨论。

1. CN-DBpedia 构建流程

知识库可以分为两种类型,一种是以 Freebase,Yago2 为代表的 Curated KBs,主要从维基百科和 WordNet 等知识库中抽取大量的实体及实体关系,像是一种结构化的维基百科。另一种是以 Stanford OpenIE,和我们学校 Never-Ending Language Learning (NELL) 为代表的 Extracted KBs,直接从上亿个非结构化网页中抽取实体关系三元组。

与 Freebase 相比,这样得到的知识更加多样性,但同时精确度要低于 Curated KBs,因为实体关系和实体更多的是自然语言的形式,如“奥巴马出生在火奴鲁鲁。” 可以被表示为(“Obama”, “was also born in”, “ Honolulu”)。

下面以 CN-DBpedia 为例看下知识图谱大致是怎么构建的。

上图分别是 CN-DBpedia 的构建流程和系统架构。知识图谱的构建是一个浩大的工程,从大方面来讲,分为知识获取、知识融合、知识验证、知识计算和应用几个部分,也就是上面架构图从下往上走的一个流程,简单来走一下这个流程。

2. 数据支持层

最底下是知识获取及存储,或者说是数据支持层,首先从不同来源、不同结构的数据中获取知识,CN-DBpedia 的知识来源主要是通过爬取各种百科知识这类半结构化数据。

至于数据存储,要考虑的是选什么样的数据库以及怎么设计 schema。选关系数据库还是NoSQL 数据库?要不要用内存数据库?要不要用图数据库?这些都需要根据数据场景慎重选择。

CN-DBpedia 实际上是基于 mongo 数据库,参与开发的谢晨昊提到,一般只有在基于特定领域才可能会用到图数据库,就知识图谱而言,基于 json (bson) 的 mongo 就足够了。用到图查询的领域如征信,一般是需要要找两个公司之间的关联交易,会用到最短路径/社区计算等。

schema 的重要性不用多说,高质量、标准化的 schema 能有效降低领域数据之间对接的成本。我们希望达到的效果是,对于任何数据,进入知识图谱后后续流程都是相同的。换言之,对于不同格式、不同来源、不同内容的数据,在接入知识图谱时都会按照预定义的 schema 对数据进行转换和清洗,无缝使用已有元数据和资源。

跨境电商产业图谱照片_电商 知识图谱_电商产业链图谱

3. 知识融合层

我们知道,目前分布在互联网上的知识常常以分散、异构、自治的形式存在,另外还具有冗余、噪音、不确定、非完备的特点,清洗并不能解决这些问题,因此从这些知识出发,通常需要融合和验证的步骤,来将不同源不同结构的数据融合成统一的知识图谱,以保证知识的一致性。

所以数据支持层往上一层实际上是融合层电商 知识图谱,主要工作是对获取的数据进行标注、抽取,得到大量的三元组,并对这些三元组进行融合,去冗余、去冲突、规范化。

第一部分 SPO三元组抽取,对不同种类的数据用不同的技术提取:

尤其是纯文本数据会涉及到的等,需要用到许多自然语言处理的技术,包括但不仅限于分词、词性标注、分布式语义表达、篇章潜在主题分析、同义词构建、语义解析、依存句法、语义角色标注、语义相似度计算等等。

第二部分才到融合,目的是将不同数据源获取的知识进行融合构建数据之间的关联。包括实体对齐、属性对齐、冲突消解、规范化等,这一部分很多都是 dirty work,更多的是做一个数据的映射、实体的匹配,可能还会涉及的是本体的构建和融合。最后融合而成的知识库存入上一部分提到的数据库中。如有必要,也需要如 Spark 等大数据平台提供高性能计算能力,支持快速运算。

发表评论
验证码: 点击我更换图片

注:网友评论仅供其表达个人看法,并不代表本站立场。

热门文章

  • 2020年国内十大生鲜电商平台排名!
    2020年国内十大生鲜电商平台排名!

    2020年国内十大生鲜电商平台排名!

    目前除了我们熟知的天猫生鲜、京东生鲜等生鲜平台,还有哪些生鲜电商o2o平台呢?接下来我们就一起来看看2020年十大生鲜电商平台有哪些!每日一淘是一个...

  • 知识图谱完整项目实战(附源码)(3)
    知识图谱完整项目实战(附源码)(3)

    知识图谱完整项目实战(附源码)(3)

    本文是《知识图谱完整项目实战(附源码)》系列博文的第3篇:汽车知识图谱系统架构设计,主要介绍汽车领域知识图谱系统的总体架构设计和关键技术。...

  • 为电商而生的知识图谱,如何感应用户需
    为电商而生的知识图谱,如何感应用户需

    为电商而生的知识图谱,如何感应用户需

    如何建设一个比较通用的面向应用的概念体系,支持根据业务需求提供查询服务,已经迫在眉睫。mining流程后持续扩大挖掘覆盖),目前数据已经作为类目预...

  • 阿里知识图谱首次曝光:每天千万级拦截
    阿里知识图谱首次曝光:每天千万级拦截

    阿里知识图谱首次曝光:每天千万级拦截

    阿里妹导读:借助阿里知识图谱的建设,阿里电商平台管控从过去的“巡检”模式升级为发布端实时逐一检查。在海量的商品发布量的挑战下,最大可能地...

  • 生鲜电商O2O商业模式实现路径_张旭梅.p
    生鲜电商O2O商业模式实现路径_张旭梅.p

    生鲜电商O2O商业模式实现路径_张旭梅.p

    商业模式实现路径。提高生鲜农产品消费价值已成为生鲜电务增值模式等三方面展开研究。主要从营销层面分析增值性”。但尚未对产品服务增值模式在有...

人物

更多 >
人物马云:区块链不是泡沫
人物李彦宏:百度有自己的价值观 未来“AI战
人物吴欣鸿:美图秀秀下一个十年发力图片社
人物最贵的离职:陆奇带走了百度900亿市值
人物刘强东代言上瘾,这次为核桃代言

专题

更多 >
广告位