基于关键短语的网络热点话题分析

来源 :天津工业大学 | 被引量 : 1次 | 上传用户:diqier001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络热点话题分析是对文本数据进行归类、话题提取、网络热点跟踪等处理的关键技术,在文本分类、搜索引擎、新闻推荐等领域有着广泛的应用。关键短语是由N元词组成的词串,语义语境相对完整,具有相对完善的文本特征,能够更清楚地表达文本的主题信息。因此,对关键短语提取方法的研究有助于提高话题分析的实用性。SegPhrase算法是当前提取关键短语最新的技术,其提取关键短语的结果比传统方法具有更高的准确率和召回率。通过我们的分析及实际的应用发现,SegPhrase算法还存在一些缺陷需要改进。SegPhrase算法在提取关键短语的过程中仅基于关键词统计信息来产生短语候选集;在对短语质量评估的过程中没有充分考虑不同特征对短语重要性影响的差异;此方法也不能很好的支持中文文本的关键词短语提取。为了更好地对中文文档进行主题分析,本文对SegPhrase算法进行了改进。在短语候选集产生的过程中,本文通过使用词串之间的互信息特征,能够保留部分低频但关键的短语,改善了仅仅依靠频率提取候选短语的缺点;在对短语质量进行评估的过程中,本文利用了短语不同特征的差异性,将文本特征利用袋外数据(OOB)误差方法进行了分类处理,并赋予不同的.特征不同的权重对短语进行综合评估,使之更符合短语的实际应用语境。此外,针对基于关键词的主题分析方法存在的缺乏上下文语境、无法解决一词多义等问题,本文提出了一种基于关键短语的网络热点话题分析方法,利用语法、语义以及结构相对丰富的短语对文本进行热点话题分析。本文实验数据,是从国内各大门户网站持续一个月抓取的文档。通过实验证明,改进的SegPhrase算法比原方法具有更高的召回率和准确率,基于关键短语的主题分析比基于词的话题分析,更能够清晰、准确的表达当前网络热点话题。
其他文献
陕西省民营经济转型升级试验的示范县——府谷县在民营经济转型升级方面取得了一定成就,如民营经济产值不断增加,比重逐步提高;民营经济发展推动产业结构逐步优化升级;推进民
森林土壤N素形态、N库动态及其运移转化特征备受关注。采用稳定性15N同位素稀释技术和示踪技术测定森林土壤总N转化速率和15N回收率,可以揭示森林土壤N素特别是无机N的运移转
统一后的德国有意超越其中等国家的国际地位,希望在打造国际政治秩序方面发挥更多的影响力。为了在世界舞台上赢得尊重,并且扩大自己的外交活动空间,提升国家的影响力和声望,
随着计算机技术及网络技术的日益发展及普及应用,智能化建筑在信息时代得到了迅猛发展,智能化建筑在建筑行业中愈来愈显示其重要的核心的作用。与此同时,传统的建筑电气在市
本文在对马圩东大堤隐患及其稳定性和护岸安全性分析的基础上,构建了一套多目标、多层次的安全评价指标体系,并利用综合集成赋权方法分析各指标的重要性,建立安全评价模型,分
铁路运输作为具有庞大的运力且较为经济的运输方式,被世界各国所重视。我们现在所认识的高速铁路一般是指运营速率高于200km/h或者专门建造的“高速新线”,一般其运行速度将突
<正>有人说,中国内地省份的GDP和实际利用外资情况与当地高尔夫球洞数量高度相关,相关程度分别达到55%和89%。事实上,今天高尔夫的价值已经超越其单纯的运动内涵。从青岛出发
钢筋与混凝土之间的粘结滑移性能是许多学者一直致力于研究的热点课题。然而由于钢筋与混凝土临界面传力机理复杂、影响因素多、试验手段的不同扣量测技术的差异等导致了实验
调查研究了广东沿海海萝属藻类的种类、分布、生长与繁殖特征。广东沿海以海萝、鹿角海萝为主,扁平海萝仅为局部分布,其中海萝的最高生物量可达2801.1g.m-2。粤西海域资源量
现将国内 2 0 0 1年度儿科免疫性和变态反应性疾病诊治进展简述如下。1 原发性免疫缺陷病 (PID)PID仍未能引起临床医师的足够重视。年度内仅有贾月萍等报道选择性IgA缺陷合并Evan综合征及