科技文献语义标注系统研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lihaohua008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,使得万维网中的文本资源呈指数级增长。由于现有技术的局限性,这些文本资源从计算机的角度看,仅仅是一堆乱码,即这些数据是机器“可读”但“不可理解”。如何使数据变得机器“可理解”,这正是语义标注所做的工作。科技文献中的学术术语实体通常用其缩写形式来表达,这就导致一个缩写实体对应多个全称的问题在所难免。目前的语义标注工具虽然取得了一定的成功,但是其所处理的数据基本上没有明显歧义,因此在处理一个缩写对应多个全称的歧义问题时,现有的语义标注工具就显得无能为力。科技文献语义标注系统是以维基百科为数据库,但是维基百科没有提供实体全称和缩写之间的映射。通过研究科技文献中的内容和实体的语义描述不难发现,实体的全称和缩写之间的对应关系格式比较固定,可以通过正则表达式将其抽取出来。因此科技文献语义标注系统采用正则表达式将实体的全称和缩写之间的映射从文本中抽取出来。为了得到较高的召回率和准确率,科技文献语义标注系统采用基于模式匹配的方式实现对文本中命名实体的识别,并使用正则表达式结合哈希表和改进的隐马尔可夫模型算法消除实体的歧义。科技文献语义标注系统以英文论文和维基百科网页中的文本作为测试集。测试结果表明:科技文献语义标注系统实现了科技文献中命名实体的识别和歧义的消除处理。其召回率、准确率和F-Measure指数分别为0.92、0.95和0.935。通过与语义标注工具KIM和MUSE的性能进行比较可知,科技文献语义标注系统获得了较好的性能。
其他文献
随着全球信息化的快速发展,各种各样的软件系统已经进入社会的各个领域。企业,政府等机构经过了多年信息化发展,已经拥有了各种软件资源,与此同时人们的工作方式也由过去人与
Web服务是一种通过标准协议用以保证互联网上异构平台间的应用服务可进行互操作的技术。随着互联网以及Web服务技术的快速发展,企业的开发需求不断更迭,因此,Web服务的数量也正
随着移动通信技术的发展,移动节点间通信的安全性日益成为人们关注的热点。其中移动自组网的安全通信,更是研究的重点。作为现有通信领域内常用的体系,PKI(Public Key Infras
目前,主流的信息检索系统都是基于语法层上的关键词匹配或者内容分类目录的检索技术,导致计算机无法理解信息的语义内容,存在信息的误检、漏检等缺陷。为了使检索具有智能性,
随着计算机技术和网络技术的迅猛发展,计算机系统已经从独立的主机发展到复杂的、互联的开放式系统,入侵检测的问题变得越来越突出。生物免疫系统基本功能是识别自我和非我,
关联规则挖掘的研究一直是数据挖掘领域的研究热点之一。它主要是指在满足最小支持度和最小信任度的条件下,从数据库中挖掘出如“购买物品A和B的客户80%同时也购买C和D”这样
无线Mesh网络是一种与传统无线网络完全不同的新型无线网络技术,它依靠无线链路多跳传输数据,减轻了对有线网络的依赖,更以它频谱效率高、覆盖范围大、可扩展性和可靠性强等优势
随着计算机和网络技术的不断发展,计算机网络的安全问题也日益突出。目前网络安全技术包括路由器、防火墙、漏洞防堵、入侵检测、审计和反攻击等,其中路由器过滤、防火墙、漏
随着互联网应用和电信业务的不断发展,数据库的应用范围越来越广泛,数据库规模不断的扩大,业务复杂程度的增加,系统的性能问题越来越突出,因此对数据库性能优化变得十分重要