【摘 要】
:
同义实体识别任务是指在数据中发现同一命名实体的不同的指代名称的任务。同义实体识别可以有效解决数据冲突、去除冗余数据,进一步提高数据集成度,保证数据的准确性、一致性
论文部分内容阅读
同义实体识别任务是指在数据中发现同一命名实体的不同的指代名称的任务。同义实体识别可以有效解决数据冲突、去除冗余数据,进一步提高数据集成度,保证数据的准确性、一致性和完整性,同时也可以有效促进问答系统等应用领域的发展。传统的同义实体识别方法通常只能利用有限的文本信息,识别效果不佳。基于搜索引擎的同义实体识别方法,相比于传统的方法识别效果有较大的提升,但是仍然存在一些问题,基于此,本文开展同义实体识别任务研究工作。(1)针对现有的基于搜索引擎的同义实体识别方法没有充分利用实体信息的问题,本文提出一个新的命名实体之间相似度计算方法VarSim函数,该相似度方法利用搜索引擎返回的实体页面摘要信息,并分析了摘要文本内容中的隐藏有效信息,再结合特征融合技术,提出基于乘法特征融合同义实体识别方法SER-mult-FF。该方法保留并综合了不同命名实体特征对同义命名实体的重要鉴别信息,提高了识别效果。最后通过实验验证了 SER-multi-FF方法进行同义实体识别的优越性。(2)针对现有的基于搜索引擎的同义实体识别方法有手动设计的特征和特定任务专家知识的相似性度量要求,导致该类方法具有较大局限性,本文提出了带属性内容感知实体网络表示的同义命名实体发现算法(CAAEE),该方法结合Network Embedding和命名实体信息构建两个异构网络,通过两个异构网络的联合学习学得命名实体的低维特征向量表示,然后将低维向量空间中实体的距离作为实体间的相似性度量。该方法可以从命名实体的属性和文本描述内容中自动提取有效语义特征,不需要进行手工的特征设计和领域专家知识,提高了同义实体识别的准确性和效率。
其他文献
突如其来的新冠肺炎疫情影响了人们的生活,也给民事立法带来新课题。民法典在编纂过程中,总结新冠肺炎疫情防控的经验,梳理与疫情相关的民事法律制度,针对疫情防控中出现的问
利用廉价且丰富的木质纤维素为原料生产生物燃料,是解决能源危机的有效途径之一。由于木质纤维素特殊的晶体结构,直接进行酶解糖得率很低,所以通常酶解前需要增加预处理过程
本文以石油焦为炭前躯体原料,采用化学活化法制备双电层电容器(EDLC)电极用高比表面积和适宜孔径分布的活性炭材料。考察了石油焦种类、KOH活化工艺、混合活化剂类型及配比对所
本文通过对春10区春光油田沙一段储层基本特征的研究,同时依据本区的地质条件,认为三类隔夹层(泥质隔夹层、物性隔夹层和钙质隔夹层)在该区可能发育。此次在砂体数据的基础上
随着移动通信的蓬勃发展,人们对移动通信系统的传输速率、时延以及吞吐量等方面的要求越来越高。D2D(Device-to-Device)通信技术是下一代移动通信中非常有前景的技术,通过使
电能储存对于可再生能源的高效率利用来说至关重要,正成为当今研究的一个热点。新能源车辆也需要先进的电能储存技术来提供高能量供应和高功率密度。而锂离子电池提供已知电
阵列信号处理作为现代信号处理领域的一个重要分支,通过传感器阵列来接收空间信号,与传统的单个传感器相比,具有灵活的波束控制、更高的信号增益、极强的抗干扰能力及良好的
随着天线罩高性能的发展,天线罩测试,作为天线罩设计工作的补充与验证,也越来越追求快速、精准。本文针对天线罩测试工作中的实际问题,以干涉测向技术为依托,开展了球面波干
随着Web 2.0的发展,在线知识社区(OKC)成为生产、分享和获取知识的重要平台。OKC社会系统由大量异质性个体组成。异质性个体之间需要进行团队互动来推进知识序化,知识序化结
随着信息化进程的加快,人们对信息的安全有着更高的要求,这给人脸识别的研究带来了巨大的挑战。这些挑战主要来源于人脸的姿态、表情、光照及遮挡等变化因素,传统的方法很难