实体关系抽取

02-29 1183阅读

文章目录

有监督关系抽取
半监督关系抽取
- 远程监督
- Bootstrapping
- 无监督关系抽取
  本文将重点放在了无监督关系抽取上，无监督关系抽取有监督和半监督限制更少，能应用的领域也更多。
  实体关系抽取发展
  
  有监督关系抽取
  
  有监督的关系抽取方法将关系抽取任务看作分类问题．通常需要预先了解语料库中所有可能的目标关系的种类，并通过人工对数据进行标注，建立训练语料库．使用标注数据训练的分类器对新的候选实体及其关系进行预测、判断．
  
  在给定实体对的情况下，根据句子上下文对实体关系进行预测，执行流程为：
  - 预先定义好关系的类别。
  - 人工标注一些数据。
  - 设计特征表示。
  - 选择一个分类方法。(SVM、NN、朴素贝叶斯)
  - 评估方法。
    
    其优点为准确率高，标注的数据越多越准确。缺点为标注数据的成本太高，不能扩展新的关系。
    
    半监督关系抽取
    
    前面的监督学习效果虽好，但有标注数据集的获取困难。因此可以借助半监督学习的方法，此处又分为远程监督学习和Bootstrapping方法两种。
    
    所谓远程监督方法就是知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。Bootstrapping是通过在文本中匹配实体对和表达关系短语模式,寻找和发现新的潜在关系三元组。
    
    远程监督
    
    该方法认为若两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。如在某知识库中存在“创始人(乔布斯，苹果公司)”。那么就认为出现乔布斯和苹果公司的句子就是表述创始人这项关系。因此可构建训练正例：乔布斯是苹果公司的联合创始人和CEO。
    
    远程监督流程为：
    - 从知识库中抽取存在关系的实体对。
    - 从非结构化文本中抽取含有实体对的句子作为训练样例。
      远程监督可以利用丰富的知识库信息，减少一定的人工标注，但它的假设过于肯定，如乔布斯被赶出苹果公司。这句话表达的就不是创始人的例子，因此会引入大量的噪声，存在语义漂移现象。同时由于是在知识库中抽取存在的实体关系对，因此很难发现新的关系。
      
      Bootstrapping
      
      这个方法在很多任务中都有提到，其执行流程为：
      - 从文档中抽取出包含种子实体的新闻，如：
        
        姚明老婆叶莉简历身高曝光
        
        X 老婆 Y 简历身高曝光
        
        姚明与妻子叶莉外出赴约
        
        X 与妻子 Y 外出赴约
        
        将抽取出的Pattern去文档集中匹配
        小猪与妻子伊万外出赴约
        根据Pattern抽取出的新文档如种子库,迭代多轮直到不符合条件
        该方法的优点为构建成本低，适合大规模的构建，同时还可以发现新的(隐含的)关系。缺点为对初始给定的种子集敏感，存在语义漂移现象，结果的准确率较低等。
        
        无监督关系抽取
        
        事先确定关系类型是有监督和半监督机器学习的关系抽取方法的局限性之一，而在大规模的语料中无法预知所有的实体关系类型。
        
        无监督的机器方法是自底向上从大规模的语料库中抽取实体之间的关系。该方法首先通过基于聚类（cluster）的思想将上下文信息相似性的实体对聚成一类，然后选取合适的词语标记关系，之后自动地抽取实体之间的语义关系．
        
        无监督的机器学习关系抽取一般流程如下：
        
        获取命名实体识别及其上下文的信息；
        聚类具有相似性的命名实体对；
        选择核心词汇标注各类的语义关系．