博客热点话题挖掘方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:nmgbmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,网络信息成爆炸式增长。如何快速、准确的从这些海量数据中获得有用的信息成为了人们关注的焦点。话题检测与跟踪(TDT)一直是国内外网络信息处理研究的一个热点,具有广泛的应用前景。本课题的研究目标是通过对博客文章的内容进行挖掘,检测出当下网民正在讨论的热点话题,实时地反馈给用户。传统文本聚类算法对于热点话题挖掘问题不能给予很好的解决办法,使得热点话题挖掘大多数都仅限于研究阶段,难以具有实用价值。本文设计了一种新的热点话题挖掘算法,类似分组聚类的方法,但是分组不是以指定大小来分组,而是根据是否含有某一标题关键词来分组,组的大小也不是固定的。分别对组内的文档集进行Single-Pass聚类得到分组内部的事件,然后将不同组挖掘到的事件进行层次聚类获得话题。并通过引入事件模板,种子文档,时间窗口,增加重要特征(比如地点名词,出现在标题中的名词等)的权重以及改进相似度计算函数,来提高算法的性能。为了对本文的算法进行评测,我们根据新浪专题事件构造了三种数据集,数据集一包含13252篇各种类型的网页,包含28个事件;数据集二是只包含博客文章的1589篇网页,包含40个事件。数据集三是TDT4评测语料。实验表明,本算法针对数据集一的召回率和准确率分别为91.73%和93.04%,针对数据集二的召回率和准确率分别为82.37%和92.18%,针对数据集三的代价值为0.48。通过与传统聚类算法的实验对比显示,本文的方法优于其他传统聚类算法,能够满足实际应用需求。基于上述算法,本文实现了一个针对博客热点话题挖掘系统。该系统目前已经持续运行了近15个月,收集整理了超过3000个热点话题及相关的博客文章226,373篇,随机选取系统挖掘到的100个话题,并对话题的相关文档进行手工标注,发现系统的精确度达到83%,为热点话题的自动挖掘提供了可行性。
其他文献
目的:观察临床护理路径干预对小儿输液护理效果及护理满意度的影响。方法:选择2013年1月-2013年6月于我院进行静脉输液治疗的小儿患者150例作为对照组,进行常规护理,选择2013年7
以我国湿地公园自身具备的作用以及类型作为研究对象,在明确城市修复理念基础上,对我国当前湿地公园施工技术存在的问题及对策展开了研究。详细地分析了在湿地公园建设的过程
编外人员是医院在职人员中的重要结构,如何加强医院编外人员的管理成为医院研究的重要内容。本文将从医院编外人员聘任现状,工作性质类型,以及改进人员管理措施等方面探究编外人
<正>在2012年欧洲心脏病学大会上,代表美国心脏病学院(ACC)、美国心脏协会(AHA)、欧洲心脏协会(ESC)及世界心脏联盟(WHF)四大心血管权威社团的52个任务小组联合发表了第三版
显示器作为消费者在购买硬件外设中是一个不可缺少的产品,一种可以在多角度方便消费者浏览,可旋转屏幕的LCD显示器也推出了市场,这种可旋转屏幕设计的液晶显示器有别于一般显示
消化道肿瘤是我国最常见的癌症之一,晚期的消化道肿瘤扩散转移腹腔在临床较为常见且愈后极差中位生存期久3—6月左右而全身化疗由于药物很难穿透腹腔有效率仅10%~15%。这部分病人
目的:研究髋关节置换术治疗股骨颈骨折的临床疗效。方法:选取2012年1月至2014年1月间于我院诊治的股骨颈骨折患者112例,回顾其临床资料,根据其治疗方法分为对照组(61例)和观察组(51
为了制备新型的高纯碳化硅耐火材料,将无压烧结碳化硅陶瓷制备工艺用于制备碳化硅耐火材料:在SiC粗颗粒、中颗粒、细颗粒、细粉质量分数分别为15%、35%、15%、35%的碳化硅耐
在对保险管进行可靠性实验研究时,在两倍额定电流测试下发现同规格的保险管测试点不同,熔断特性有较大差异,会出现熔断时炸管现象,存在潜在安全隐患。本文从保险管结构、发热
本文从教育科学研究的特点和师范教育的分析入手,论述教育科学研究和师范教育的关系,概括出教育科学研究是推动师范教育改革与发展的动力。