无监督中文实体关系抽取研究

被引量 : 0次 | 上传用户:janemini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取在信息抽取研究领域是非常重要的课题。其应用领域广泛,特别是这几年随着互联网大发展,传统的基于关键字索引的搜索引擎已经渐渐无法满足用户日益提升的需求。知识图谱技术的提出,无疑为搜索引擎提供了一条新出路。而知识图谱的构建是建立在实体识别与实体关系抽取的基础之上,中文实体识别在早年已经较为成熟,因而实体关系抽取研究的意义就变得更加重要。传统的实体关系抽取都是采用规则匹配或者有监督的机器学习。虽然两种方法都具有较高准确性,但是由于上述两种方法都需要有大量的人工介入,并且领域通用性较差,因而不适合大规模的应用。所以近些年来半监督或者无监督实体关系抽取相继成为研究热点。国外半监督与无监督研究相对开展较早,提出了很多较为优秀的方法。相比之下,国内该领域由于中文语法的复杂性和与英文语法的区别性,国外的较多研究成果不具有借鉴意义。虽然近年来很多学者提出了多种中文实体关系抽取方法,但由于网络语言更新较快,不断有新的语言现象出现,且网络语言的语法较为随意,因而目前特征获取不准和精度低的问题依然存在。本文提出了一种在互联网开放式环境中,采用大规模语料抽取实体对关系的无监督方法。该方法同样是基于特征向量文本抽取的共同假设,即存在相同或相似关系的实体对,其上下文内容较为相近。基于此假设,实体对关系的抽取,就变成了实体对特征向量相似度的计算,然后再通过对相似实体对特征的聚类,提取出关键词描述该类实体对关系。本文的主要工作体现在三个方面:首先,在经典上下文窗口的基础之上,通过语料统计分析,提出了一种改进的弹性上下文窗口方法获取特征词。其次,本文引入互信息方法计算特征词权值,并针对互信息方法不足做出了改进。最后,提出了一种通过预聚类和采用标准分数的方法,改进经典k‐means在K值和聚类初始中心选择与孤立点处理上的不足。为了验证提出方法的有效性。在网络获取的语料上,对于几种不同的方案分别进行了区分实验。从结果上可以看出,本文提出的几种方法都能够有效提升实体关系抽取效果。
其他文献
<正>冷战结束以来,对于联合国在世界事务中作用的认识,经历了一个变化过程。20世纪90年代初期,不少国家曾寄希望于联合国建立世界新秩序。但是,在90年代中后期,联合国在维和
通过文献资料法和比较分析法等方法,对中、日两国青少年足球运动政策实施情况、赛制制定情况、教练员队伍情况、基础设施建设状况以及近年来少年国家队比赛成绩等进行对比分
干旱是中国烟草种植业面临的较为严重的非生物胁迫.很多与植物共生或联合的根际微生物能帮助植物避旱和耐旱.微生物能通过菌丝吸水并转运到植物,通过产生植物激素或改变植物
高分子化学是材料化学专业重要的技术基础课,而高分子化学实验是其理论和实践密切结合,培养学生创新能力的重要环节。通过建设课程资源、优化教学项目和开放实验室等方法,优
随着我国农业市场化程度的提高和农村经济的发展,中国分散经营的小农日益无法抵抗外部环境带来的风险,无力应对市场需求波动,农民在市场上的竞争力正在逐渐减弱。此时需要一
本文针对FZ/T81001—2007《睡衣套》标准在实施过程中遇到的问题进行了分析。主要介绍了缝子纰裂、撕破强力、尺寸变化率和洗后外观等四个指标给企业和测试机构带来的困惑,并
高端人才顾名思义就是指在人才群体中具有较高人力资本水平的那部分人才,通常通过学历层次或职称等级将其与一般性人才区分开。本文认为具备较高学历或职称等级仅代表人才具
语文学科是一门人文学科,语文是所有学科中最亮丽的一道风景线,因为它包含着古今中外的优秀文学的作品,这些作品中有着深刻的道理、丰富的哲理、人文的精神、更有着作者那用
根据光学薄膜原理,编制出计算机程序。在太阳电池封装玻璃的上、下表面分别设计出红外(IT)截止的带通滤光膜系A|[1.05(LMHML)](LMHML)6[1.15(LMHML)]1.15L|G和紫外(UV)截止的带通滤光膜系G|H/2
龙纹瓷器装饰,不仅有传统的"九似"龙纹(角似鹿、头似驼、眼似鬼、项似蛇、腹似蜃、鳞似鲤、爪似鹰、掌似虎、耳似牛),而且又出现了许多新的形态,比如:翼龙(应龙)、夔龙、螭龙