汉语专业领域命名实体语义关系自动抽取研究

阅读量:

33

作者:

赵君喆

展开

摘要:

我们处于一个信息爆炸的时代,互联网上的中文信息在飞速地增长。通过信息抽取技术从浩瀚的中文信息海洋中自动寻找用户所需求的信息则显得至关重要。而命名实体语义关系抽取是信息抽取中的主要任务之一,所以近年来命名实体语义关系抽取研究也成为了我国自然语言处理研究领域中的一个热点。 当前汉语的命名实体语义关系抽取研究主要是有指导(Supervised)或弱有导(Weakly Supervise)的方法,且研究对象大多是一般领域的语料。这些方法在训练语料库的标注、关系抽取规则的编制以及初始关系种子的选取上都费时费力;此外,适用于一般领域语料的关系抽取方法难以满足一些专业领域的需求。所以,本文提出了一套适用于专业语料的无指导命名实体语义关系抽取的方案,并实现了该系统。此外,本文还尝试了利用该系统的抽取结果构造关系模板和关系种子。 本研究针对专业领域的语料特性,运用语言资源工具对向量空间模型(VSM)进行改进和优化,解决了专业领域语料的特征模糊问题;根据潜在关系信息分布特征,设计了专业领域语料中实体-关系网络的构造方法;利用复杂网络(Complex Networks)理论中的网络社区(Community)特性,实现了在专业领域语料中关系类别的自动发现;通过对词语在上下文中的重要性分析,采用了提取重要性权重最高词作为关系描述词的关系描述方法。 本文在专业领域语料平台上对该系统进行了实验,并结合权威评价手段对实验进行了评估,另外还构造了有指导关系抽取系统对实验系统获得的关系进行验证。最终结果表明:本系统在专业领域语料中不但能发现几乎所有的人们已知的关系种类,而且能发现一些不为人知的关系种类;系统在无指导的情况下,可以快速并比较准确地得到命名实体之间的关系描述。 实验证实了本文构造的系统在专业领域语料中及无指导情况下具有良好的性能,同时实验还证实了无指导关系抽取结果对有指导关系抽取系统具有辅助作用。此外,本文还发现该系统提取的关系描述可以为专业领域中关系本体(Ontology)的建设提供依据。

展开

DOI:

CNKI:CDMD:2.2007.113603

被引量:

2

通过文献互助平台发起求助,成功后即可免费获取论文全文。

相似文献

参考文献

引证文献

辅助模式

0

引用

文献可以批量引用啦~
欢迎点我试用!

关于我们

百度学术集成海量学术资源,融合人工智能、深度学习、大数据分析等技术,为科研工作者提供全面快捷的学术服务。在这里我们保持学习的态度,不忘初心,砥砺前行。
了解更多>>

友情链接

百度云百度翻译

联系我们

合作与服务

期刊合作 图书馆合作 下载产品手册

©2025 Baidu 百度学术声明 使用百度前必读

引用