电商信息资讯,更全更新信息实报!
主页 > 知识 > > 正文

肖仰华教授讲授【知识图谱概念与技术】研讨实录(四)

来源:网络整理 发布时间:2021-09-01 21:10 标签:语义分析自然语言处理文本分类
浏览:

以下为课程第四章《关系抽取》的研讨内容:

1、信息抽取的价值?关系抽取的价值是什么?

学生:

信息抽取的价值:可以从非结构化或半结构化的文本中抽取出结构化形式,也就是文本结构化,结构化的信息非常具有价值。

关系抽取的价值:关系抽取是信息抽取的重要子任务,关系抽取是构建知识图谱最重要的子任务之一,关系抽取的结果可以用于很多下游NLP任务。

学生:信息抽取旨在从非结构化或半结构化文本中抽取出结构化数据;关系抽取旨在从无结构的文本中抽取实体以及实体之间的关系。

2、关系获取有哪些方式?分别是什么?各种方式的特点?

学生:

1)人工获取:很难获得大规模的关系实例,仅限于对关系实例进行少量的增补与修改。

2)众包构建:能实现大规模高质量的知识获取,依赖人力,人的主观性导致知识Bias。

3)从结构化数据库转换:任何有良好模式的数据库都可以作为数据源,依赖人工定义映射规则,结构化数据规模有限。

4)自动构建:能实现大规模关系获取,仍需质量改造。

肖仰华老师:大家的回答里都提到了知识的 Bias,这个问题谁能举个例子?

学生:偏向于一些人的常识,并且过于局限,比如太阳从东边出来。

肖仰华老师:好的,那么从语料中抽取出的知识是否也会存在 Bias 呢?

学生:会倾向于那些热门的,长尾的关系会比较少。

肖仰华老师:对的。会不会有些知识在文本中从不提及,或者说几乎不提及?

学生:常识知识基本不被提及。

肖仰华老师:对的。所以,当前知识获取的 Bias 问题,从来就没有解决,有什么办法解决这个问题么?这个问题留给大家思考,这是个很难的问题。

3、关系抽取有哪些具体的任务类型?

学生:

1)关系实例抽取:给定关系P,从语料中抽取更多该关系的实例。

2)关系分类抽取:根据实体对的文本描述,将实体对的关系进行归类(通常需要预定一关系类型)。

3)实体关系联合抽取:根据输入文本进行实体和关系的联合抽取。

4)开放关系抽取(OpenIE):从文本中抽取出描述关系的文字,通常是未定义的关系。

肖仰华老师:所以关系抽取是个很泛的概念,大家如果以此为题开展研究,务必明确具体的输入输出,以及相应的问题建模。

4、OpenIE 与关系分类的差别是什么?

学生:OpenIE 没有给定的实体对和候选关系集,直接从文本中进行抽取。关系分类给定实体对和候选关系集,只需根据实体对上下文进行分类任务即可。

学生:关系分类是根据实体对的文本描述,将实体对的关系进行分类,通常需要预定义关系类型,然而能够定义的关系总是有限的,语料中总会出现大量的未定义的关系描述。为了充分利用开放域中的大规模语料,以得到更多的关系实例,OpenIE 旨在从开放域文本中抽取三元组实例,侧重于从文本中抽取出关系的文本描述,其所指代的关系可以是未定义的,也可以进一步映射到已定义的关系。

5、关系抽取有哪些前序和后续处理步骤?

学生:

前序步骤:1)实体识别,识别要抽取关系的实体对。2)属性识别,获取实体的适合谓词,可以从所属概念模板自动继承,也可以根据统计信息判断。

后续步骤:1)规范化:比如关系描述的规范化。主要作为开放关系抽取的后续步骤。2)过滤:过滤一些低质量的关系。

6、关系抽取的方法如何分类?

学生:

基于学习的方法:

1.按照学习方式分为:传统机器学习,深度学习;

2.按照监督方式:无监督,半监督,有监督;

3.按照学习模型:序列标注,关系分类;

基于模式的方法:

1.专家定义模式;

2.自动学习模式

学生:基于模式或规则的抽取方法;基于序列标注的监督学习方法;基于文本分类的监督学习方法。

7、远程监督构建的关系抽取数据集有什么优点?有什么问题?

学生:

优点:自动化程度高、规模大。

问题:噪音大。尤其是对可能存在多种关系的实体对,例如:知识库中有三元组(上海,副市长,汤志平),语料中有句子“汤志平籍贯上海”,就会将该句子给一个“副市长”的关系标签,这显然是不正确的。

发表评论
验证码: 点击我更换图片

注:网友评论仅供其表达个人看法,并不代表本站立场。

热门文章

  • 为电商而生的知识图谱,如何感应用户需
    为电商而生的知识图谱,如何感应用户需

    为电商而生的知识图谱,如何感应用户需

    如何建设一个比较通用的面向应用的概念体系,支持根据业务需求提供查询服务,已经迫在眉睫。mining流程后持续扩大挖掘覆盖),目前数据已经作为类目预...

  • 2020年国内十大生鲜电商平台排名!
    2020年国内十大生鲜电商平台排名!

    2020年国内十大生鲜电商平台排名!

    目前除了我们熟知的天猫生鲜、京东生鲜等生鲜平台,还有哪些生鲜电商o2o平台呢?接下来我们就一起来看看2020年十大生鲜电商平台有哪些!每日一淘是一个...

  • 阿里知识图谱首次曝光:每天千万级拦截
    阿里知识图谱首次曝光:每天千万级拦截

    阿里知识图谱首次曝光:每天千万级拦截

    阿里妹导读:借助阿里知识图谱的建设,阿里电商平台管控从过去的“巡检”模式升级为发布端实时逐一检查。在海量的商品发布量的挑战下,最大可能地...

  • 互联网+生鲜电商解决方案 生鲜电商O2O解
    互联网+生鲜电商解决方案 生鲜电商O2O解

    互联网+生鲜电商解决方案 生鲜电商O2O解

    生鲜电商O2O解决方案(38页珍藏版)》请在人人文库网上搜索。度上限制了生鲜电商的发展。方的农业生鲜交易平台存在小、弱格局。、配送企业、线下门...

  • 详细解读知识图谱的这一人工智能技术分
    详细解读知识图谱的这一人工智能技术分

    详细解读知识图谱的这一人工智能技术分

    相比于传统人工智能,知识图谱时代基于向量的知识表示方法不仅能够以三元组为基础的较为简单实用的知识表示方法满足规模化扩展的要求,还能够作为...

人物

更多 >
人物马云:区块链不是泡沫
人物李彦宏:百度有自己的价值观 未来“AI战
人物吴欣鸿:美图秀秀下一个十年发力图片社
人物最贵的离职:陆奇带走了百度900亿市值
人物刘强东代言上瘾,这次为核桃代言

专题

更多 >
广告位