基于内容的中文流行病新闻主题分类

被引量 : 2次 | 上传用户：lkks06

【摘要】

：

主题分类是数据挖掘中文本分类的一种应用。介于流行病新闻的特点以及数据挖掘的特殊性,文中提出了一种专门用于中文流行病新闻主题分类的新型方法。本文首次根据流行病新闻

【作者】

：

戴依若

【发表日期】

：

2011年01期

【关键词】

：

流行病新闻主题分类 TextTiling算法主题词典

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

主题分类是数据挖掘中文本分类的一种应用。介于流行病新闻的特点以及数据挖掘的特殊性,文中提出了一种专门用于中文流行病新闻主题分类的新型方法。本文首次根据流行病新闻内容总结出了流行病新闻的主题列表,并且制作了相应的流行病主题词典。通过百度全文搜索,以“流行病”为关键词筛选出流行榜新闻稿,建立中文新闻语料库。其中对于语料库中的每篇新闻加以手工标注内容主题。文中提供了运用RSS源从网络上获得有效的新闻数据的方法,并解释了如何根据HTML的属性从网页中得到纯文本的新闻信息。本文的主要部分为主题定位,其中分为基于主题词典和基于TextTiling两种方法。第一种算法是利用了流行病新闻含有大量关键词这一属性。而TextTiling方法经常用于新闻报道自动划分段落。基于TextTiling的主题方法只用于处理如下状况：如果通过第一种基于主题词典的分类算法将新闻内容划分力“空”这一类别,将再次使用基于TextTiling的分类算法进行主题定位结果再修正。第二种算法的引入,其思想是解决了主题词典中存在大量未登录词这一问题。在传统TextTiling算法中只有三个主要步骤。因为本文将其用于主题分类,所以再加上了第四个步骤用以定位主题名称、同样在细节上也有一些变化不同于Hearst的原始实验。比方说,在设置词素权重时综合考虑了该词素的分布频率和出现位置(是否在标题中)。实验系统中展示了两种分类算法融合纠正的性能好于单独使用一种主题分类算法。通过实验,文章得到该模型的性能,并对其做了有效的总结。最后在本文提出了一个将来的应用：多语言流行病新闻检索系统。该系统可以通过挖掘新闻内容来追踪某项流行病的发展,并且可以聚类描述同一主题的新闻内容。

其他文献

天津港轮驳有限公司航修厂扩建和改革方案研究

本文针对天津港轮驳有限公司船舶坞修即将面临的困难,结合自身特点、外部环境等因素提出了以新建浮船坞为核心的扩建、改革方案。结合航修厂地理、水文条件因素,笔者将船坞选

学位

浮船坞修船管理

聚氯乙烯引发剂的特性和应用

阐述不同相态类别,不同活性类别和不同结构类别的聚氯乙烯引发剂的一般特点,对国内聚氯乙烯引发剂的开发与应用有参考价值。

期刊

引发剂特点应用

苯甲醛和丙酰氯联产工艺的研究

研究了苄叉二氯和丙酸在Lewis酸催化下反应生成苯甲醛和酰氯的工艺;0.8 mol丙酸和0.8 mol苄叉二氯在0.4 g的ZnO/SnCl2存在下,于120～140℃反应2～3h,生成物用蒸馏的方法纯化得到

期刊

苯甲醛丙酰氯苄叉二氯联产

关于20世纪现实主义水墨人物画的探讨

中国水墨画是一种独特的艺术形式,有着清新素雅的面貌,画面往往超凡脱俗,意境幽远,因而独具魅力,在古代深受文人士大夫青睐。文人绘画尽量与画工相区别,注重“写意”,而不在

学位

现实主义水墨人物画写实文人画

提高机械设备管理水平和利用率的方法

在铁路工程施工建设过程中，机械设备发挥着重要作用，已经成为施工企业实力的象征。为了充分提高机械设备的利用率、降低施工成本、加快施工进度，需要充分做好机械设备的管理工作

期刊

铁路电气化机械设备设备利用率

我国法律移植的困境与对策探析

破产法的移植在我国法律移植到中具有一定的代表性,可以从一定程度上反应出我国法律移植中存在的问题。本文通过对我国当代破产法移植和实践进行系统梳理分析,研究在破产法移

学位

法律移植破产法功能比较法

不同品种橙汁调配及果肉型橙汁的研究

本研究以长叶橙、北碚447、中育7号、雪柑、夏橙等甜橙为对象,研究其制汁适应性并按照1983年美国巴氏灭菌橙汁标准进行分级；针对我国柑橘生产情况,对不同熟期的品种橙汁进行调

学位

制汁适应性非冷冻浓缩汁调配果肉

全天候船舶姿态测量与安全防范技术的研究

近年来,随着国际间贸易快速发展,全球航运运力变得紧张,造船需求非常旺盛。我国船舶制造业也有了蓬勃发展,已经成为全球重要的造船中心之一。但是我国船舶配套电子设备的市场

学位

船舶导航安全防范姿态测量OMAP3530图像识别入侵检测

某柱承式倒塌钢板筒仓结构内力三维分析

结合某柱承式钢板筒仓倒塌事故案例,通过现场调查、检测获取相关数据,采用sap2000软件对上部结构内力进行三维模拟分析,从而对倒塌事故进行分析。

期刊

钢板筒仓事故分析三维模拟

对国内外图书馆信息资源共享发展现状的比较分析

通过对中、美、德、日图书馆信息资源共享历史发展和现状的比较分析,提出了借鉴国外经验、发展具有中国特色的文献信息资源共享的主要措施.

期刊

图书馆信息资源共享比较

基于内容的中文流行病新闻主题分类

与本文相关的学术论文