面向行业的信息融合原型系统的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:rscgmy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息产业的不断飞速发展壮大,网络上的数据每天都在以惊人的速度不断的增长。用户在查询中越来越多的包含实体的信息,例如人名、机构名等,试图通过围绕实体来构建有意义的查询条件,从语义的方面查找到与这些实体相关的信息,而不仅仅通过关键词来进行信息搜索与查询。基于文档级别进行索引的通用搜索引擎,例如谷歌、百度、雅虎等,都是基于关键词匹配的文档检索,在一定程度上已经开始不能满足互联网用户的搜索需要,人们期望以实体为中心的搜索系统的出现。本文调研了上述搜索引擎的不足以及用户搜索的习惯,提出了基于实体关联模型的信息融合方法,通过机器学习构建面向行业的网页信息融合原型系统,以实体为中心将信息进行融合,目的在于利用实体的概念将信息以实体为中心集成起来,更方便于普通互联网用户有效的进行以实体为中心的搜索。本文主要进行的研究工作如下:首先,基于百度百科,通过词条的抽取、分类、整理,得到一个基于IT行业领域的实体词典。其次,收集各大门户网站中的IT新闻文本以及IT行业知名博客,通过网页抽取技术,整理并构建了面向行业的中文新闻领域的语料库。然后,通过机器学习的方法构建面向行业的网页信息融合原型系统,利用基于图的排序算法计算出文本与实体的相关度,在语义理解的基础上得到文本中实体的权重,并根据实体在所出现的文本的权重计算出实体间的关联度。最后,在上述研究基础上,完成一个以实体为中心的搜索系统原型。本文在系统的实验中,使用已经构建好的基于中文新闻领域的语料库作为测试集,对该面向行业的信息融合原型系统进行了测试,实验结果表明,通过与人工标注的实体关联度进行对比,本文所构建的实体模型中,文本与实体的相关度以及实体间的关联度与人工标注的结果偏差大部分小于0.1,计算结果与人们的认知结果基本吻合,具有较高的准确率。
其他文献
学位
当前,短信、微博、即时消息(Instant Message, IM)和在线聊天(Internet Relay Chat, IRC)等信息增长迅猛,如何对这些短文本进行分类以满足各种信息处理的要求成为一个重要的
本文主要研究传感器信号处理的数学模型,涉及的具体应用领域是油气钻探中的井斜测量及无人车导航中的交通信号灯检测。由于装配工艺的局限性,传感器难以在满足精度要求的条件下
Web Service技术,以其跨平台性、自描述性、模块化、跨防火墙的优点,在互联网领域迅速发展。随着传统的基于UDDI的Web服务发现模式逐渐淡出人们视线,如何搜索和管理这些Inter
随着图像和视频传感器技术的发展,其价格进一步降低,为移动平台例如汽车、轮船、飞机、室内移动机器人等安放相机和摄相机已成为平台设计的必须配置。这些视频和图像不但可以用
当下的网络结构越来越复杂,网络上的各种服务和应用都在飞速扩展。在研究方面,如何帮助研究机构提高网络测量的范围和精度,使其对网络拥有宏观的掌控,这是个很重要的课题。在
伴随人们对更高质量的视频越来越强烈的需求,视频编码技术在近年来取得了长足的发展,在这样的背景下,一系列视频编码标准的制订为音视频相关应用的广泛实施打下了产业化基础。迄
视频音频等多媒体文件,以其生动的表现力,形式的多样性以及强大的内容承载能力等相对于传统的文本形式的信息更为优越的特征,正在越来越多的作为信息的载体被人们越来越广泛
本文是在信息化技术高速发展的大时代背景下,应用先进的信息化技术设计实现的一种基于J2EE的高校毕业生就业管理系统对于职业学院等高职院校提高就业管理工作的效率具有极其重
云计算平台通过虚拟化技术将软硬件资源组成大规模的虚拟资源池,为用户提供按需取用的云服务。随着云计算技术的不断发展,越来越多的应用和服务选择云平台来部署。监控系统是云