Blog检索中的关键问题研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:sanxin327
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对当前互联网环境及对文本情感分析技术的需求,研究了Blog检索中的网页信息抽取和文本情感分析问题,主要创新工作和成果如下:第一,提出了一套高效、健壮的网页文本抽取算法。该算法克服了主流的基于DOM模型的网页文本抽取算法性能的性能缺陷,首次以SAX接口实现了对页面框架结构信息的利用。提出了基于全局噪声信息去重的方式提取页面正文的方法。该方法被应用在TREC Blog06数据集上,在将文档集规模压缩87.5%的同时,提高相关性检索性能指标52.5%以上。第二,提出了基于统计模型的情感分析中的几组关键特征。对情感分析中词汇的N-gram特征及其各种权重计算方法、词性特征、否定词特征和同义词扩展特征在当前情感分析领域的应用和效果进行了分析。通过词级别和句子级别的情感极性分类实验,分析了几种特征及其各种组合的应用效果,发现词性、否定词等高级文本特征在用于词级别情感分析时需要与位置信息结合,同时这些高级特征在使用基于统计的分类模型进行句子级别情感分类时效果不如单纯使用词的Unigram特征。使用本文发现的特征组合,词级别情感极性分类准确率达到88.6%,句子级别情感极性分类准确率达到83.9%。第三,实现了一套Blog观点发现系统。该系统引入网站全局噪声信息净化网页,创造性的结合段落和篇章全文级别的检索结果,从而大幅度提高了话题相关性检索性能。在2008年的TREC Blog测试中,该系统由于表现出色被列为后续任务的基准系统。
其他文献
目前,互联网的应用越来越广泛,网络上的负载开始呈爆炸式的增长,从而使得网络拥塞问题日益严重,对网络的正常运行造成了巨大的危害。网络拥塞控制由链路层的反馈机制和源端的
嵌入式系统以应用为目的,以微电子技术、控制技术、计算机技术和通信技术为基础,强调硬件软件的协同性与整合性,软件与硬件可剪裁,以满足系统对功能、成本、体积和功耗等要求。因
在我国,各向异性地层所占的比例非常大,当用常规的感应测井仪来测量这些低阻产油层时常常会带来错误。三分量感应测井仪改变了常规感应测井仪线圈布局的方式,可同时测量地层
在控制理论研究领域中,奇异系统作为一个有着广泛实际背景的动态系统模型,自从70年代以来便受到了控制理论界的重视。随着研究的深入,人们发现奇异系统广泛存在于我们的生活生产
本文是以实验室规模的阳离子管式反应器为背景,研究管式反应器温度分布控制方法问题,具体采用的是极点配置方法。在目前的工业生产中,聚合物的分子量缺乏在线测量技术,急需一
随着小世界模型以及无标度网络的提出,复杂网络的研究愈来愈热。当前复杂网络的研究更多的关注于实际网络的统计特性以及其上发生的动态过程。现实的通信网络如WWW、Internet
红光高清光存储,主要基于高性能的光学头物镜来缩小红光焦斑尺寸并通过改进物理存储格式等,实现大容量、高密度的信息存储。为缩小红光焦斑尺寸,需要设计突破衍射极限的光学头物镜。本文设计、制作了用于红光高清光学头的原理性衍射物镜。研究显示,平面波角谱衍射理论可以被有效地用于具有微纳米特征尺度的衍射光学结构的设计。本文分别使用光程差算法和迭代角谱算法,设计由大量具有微纳米特征尺度的精细衍射结构所构成的衍射物
纯电动汽车以其清洁环保的特点,成为汽车工业未来发展的重要方向。相比于乘用车,纯电动汽车在商用车领域的发展较快,尤其是纯电动客车,已得到了较为广泛的应用,但其发展依然
当前世界能源形势不容乐观,越来越多的研究人员因此开始致力于化工过程的节能研究。作为化工生产过程中最为耗能的单元操作之一,精馏过程的节能研究一直是广大研究人员关注的
本文设计了一种适用于红光高清光电存储(Next-Generation Versatile Disc,简称NVD)光学头的新型物镜。要求能在约3毫米焦长处,获得约0.5微米尺寸的焦斑并得到高的光能利用率。基于此,本文提出了新的全衍射光存储光学头物镜方案,通过设计和制作纯相位型的衍射光学元件(Diffractive Optical Element,简称DOE),实现大容量、高密度的光电信息存储和读取。