基于词汇集聚的网络文本相关度计算

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ldbeight
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet网信息的急速膨胀,各项和Web有关的服务也都逐渐增多,Web信息在很多方面得到了广泛的应用。在本文中,我们探索了网络文本之间的相关度计算方法。重点讨论了以下两个问题:首先,网络文本的获得。网络文本的获得是指从网页中抽取出主题正文信息,属于信息抽取。网页具有半结构化的特点,其内容不光有我们所要的表达某一主题的文本,还有以盈利为目的广告信息、用来指示与该网页相关联的网页的链接及链接描述(锚文本)、给浏览器阅读的网页源代码等等,从中抽取出其中表达某一主题的文本,过滤掉不相干的信息,这是我们所要研究的内容。其次,文本相关度的计算。文本相关度指文本之间联系的紧密程度。人们常常基于向量空间模型来计算文本之间的相关度。本文首次用最大熵解决了网络文本的获取问题,提出了基于最大熵的网页正文信息抽取算法;对于文本相关度计算,我们研究了词汇集聚与文本主题之间的关系,分析了词汇集聚反应文本主题的几个因素,并组合了这些因素,最后我们提出了基于词汇集聚的文本相关性计算方法——LCDRM,其中包括基于词汇链的文本表示LCDR,词汇链权重计算WCLC,和文本匹配算法LCDM。并且通过实验证明了,这种方法能有效的提高相关度计算的准确率和召回率。
其他文献
伴随着计算机网络、分布式系统的蓬勃发展,出现了一种新的数据密集型应用,目前数据库研究领域将处理这类应用的系统定义为分布式数据流管理系统,分布式数据流管理系统中查询
伴随着网络的应用与发展,互联网中充斥着大量的安全事件。网络攻击的速度越来越快、规模越来越大、自动化程度也越来越高。对网络安全事件进行态势感知,了解安全事件在网络中
人脸识别技术是指应用计算机实现人脸的自动识别的技术,是当前模式识别和计算机视觉领域的一个研究热点。人脸识别涉及的技术很多,其中关键的是特征提取和分类方法。本文以此为
随着云计算的发展,虚拟机被广泛应用于现实生活中,大型服务器所面临的资源浪费和服务性能干扰问题也得到了初步的解决。传统的虚拟机资源分配方式采用的是静态分配,即虚拟机
传统的电力远动系统在数据传输速度和灵活性方面,无法满足对实时数据交换的要求。本文结合IEC制定的变电站网络化最新通信标准IEC61850,对电力远动信息传输方式进行了深入的
随着Internet在人们生活中各个领域内的应用,网络安全也越来越引起世界各国的关注。计算机病毒在不断的产生和传播,计算机网络被黑客非法侵入,重要信息资料的泄密,甚至造成网
智能交通系统(ITS)是交通运输领域研究的前沿课题。为实现ITS对车辆的实时、动态管理,国际上专门开发了适用于ITS领域的短距离无线通信协议,即专用短程通信(DedicatedShort-Ran
嵌入式系统的高可信性是指系统具有高安全性、高可用性、高可靠性、高可维修性和高健壮性等特征。随着嵌入式技术的飞速发展,嵌入式计算机渐渐渗透到人们生活的方方面面。但
网络教学是利用计算机手段和网络技术,协助时空分离的教师和学生共同完成教学活动的一种新型教育形式,是e-Learning发展的趋势。基于Web的在线课件系统是未来多媒体课件的主要
学位