基于自扩展与最大熵的领域实体关系自动抽取
摘要:
实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.17%。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。
展开
被引量:
年份:
2010

通过文献互助平台发起求助,成功后即可免费获取论文全文。
请先登入
相似文献
参考文献
引证文献
来源期刊
山东大学学报(工学版)
2010
引用走势
2011
被引量:3
辅助模式
0
引用
文献可以批量引用啦~
欢迎点我试用!