论文部分内容阅读
主题分类是数据挖掘中文本分类的一种应用。介于流行病新闻的特点以及数据挖掘的特殊性,文中提出了一种专门用于中文流行病新闻主题分类的新型方法。本文首次根据流行病新闻内容总结出了流行病新闻的主题列表,并且制作了相应的流行病主题词典。通过百度全文搜索,以“流行病”为关键词筛选出流行榜新闻稿,建立中文新闻语料库。其中对于语料库中的每篇新闻加以手工标注内容主题。文中提供了运用RSS源从网络上获得有效的新闻数据的方法,并解释了如何根据HTML的属性从网页中得到纯文本的新闻信息。本文的主要部分为主题定位,其中分为基于主题词典和基于TextTiling两种方法。第一种算法是利用了流行病新闻含有大量关键词这一属性。而TextTiling方法经常用于新闻报道自动划分段落。基于TextTiling的主题方法只用于处理如下状况:如果通过第一种基于主题词典的分类算法将新闻内容划分力“空”这一类别,将再次使用基于TextTiling的分类算法进行主题定位结果再修正。第二种算法的引入,其思想是解决了主题词典中存在大量未登录词这一问题。在传统TextTiling算法中只有三个主要步骤。因为本文将其用于主题分类,所以再加上了第四个步骤用以定位主题名称、同样在细节上也有一些变化不同于Hearst的原始实验。比方说,在设置词素权重时综合考虑了该词素的分布频率和出现位置(是否在标题中)。实验系统中展示了两种分类算法融合纠正的性能好于单独使用一种主题分类算法。通过实验,文章得到该模型的性能,并对其做了有效的总结。最后在本文提出了一个将来的应用:多语言流行病新闻检索系统。该系统可以通过挖掘新闻内容来追踪某项流行病的发展,并且可以聚类描述同一主题的新闻内容。