基于增量型聚类的新闻话题检测系统设计与实现

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:huamin1028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术日益发展,网络上大量的新闻更是爆炸式出现,它们不同于以往的纸质新闻,打破了纸质新闻在时效性和广泛性方面的局限性。网络新闻打破时间空间的限制的同时覆盖了社会和日常生活的方方面面,这些涉及的领域包括社会板块、金融板块、经济板块以及体育板块等。然而,每位读者都有自己感兴趣的话题和报道,那些个人不关心的新闻话题便自动被归类为噪声。为了节省读者的时间,也为了让大家愉快的浏览自己感兴趣的网络新闻,本文设计并实现了新闻话题检测系统,将网络新闻进行分类整理,将同类新闻整理成专题,用户便可以深入了解整个话题,节约了时间的同时也提高了用户体验。本文就是在这样的研究背景下设计并实现了基于增量型聚类的新闻话题检测系统,在实现过程中依次进行如下几步完成:(1)在论文准备阶段先确定系统的需求,其中软件的功能性需求包括新闻采集,数据处理,话题检测,数据存储。非功能性需求则包括可用性,稳定性,易用性,安全性,可扩展性等。在确定需求的基础上查阅相关文献,了解目前新闻话题检测方面的国内外研究现状以及每种研究方式的可用性和存在的缺陷。通过对这些材料的研究以及本文的启发,设计并实现话题检测系统,并最终确定本文设计的系统框架包括以下三部分内容:新闻信息采集,新闻数据处理,基于增量型聚类的新闻话题检测。(2)接下来是具体的实现,该系统的实现过程中用到了很多的技术,比如在新闻信息采集中使用的网络爬虫技术、网页解析技术、信息抽取技术,在新闻文本分词过程中的分词技术。在话题检测过程本文在传统Single-Pass聚类算法的基础上考虑到新闻本身存在的特点,用向量空间模型表示文本,并提出增量式更新特征权重的思想,给予对话题区分重要的词更大的权重,从而提高了话题聚类的准确性。(3)本文设计的系统采用合适的B/S架构模式,这个架构包括数据访问层、表式层即界面设计以及业务逻辑层这三层结构,使用这个架构有以下优势:只需要浏览器就可以运行系统,节省了安装客户端的时间,简化了用户的使用流程。用户可以实时进行业务的处理,简单快捷。B/S架构使得用户和系统的交互性较强、需要付出的成本更低。B/S架构更新服务器即可,不需要对具体的多个客户端进行操作更新,对系统的改进往往通过对网页的改进即可实现。本文使用C#编程语言和SQL Server 2008数据库实现最终的系统开发。
其他文献
在国家政府强调必须大力发展职业教育的形势下,我国职业教育出现了职业教育政策文本繁荣、实践领域却收效甚微的现象,其根源在于职业教育政策的执行效度不高。本文从政策的价
介绍了城市轨道交通列车网络的几种典型拓扑结构,分析其在现场应用中存在的问题,提出了一种改进“T”型网络拓扑结构,针对改进型网络拓扑结构存在的问题进行了相关分析,并给
如何在教学中更加有效地培养学生的创新思维能力。本文以一题多解和一法多题作为例证,通过分析、综合、比较、归纳、分类、类比.进行了启发性的教学.说明采用一题多解、一法多题
这些“频频到店”的职业举报人,正如市场森林中毫不懈怠的啄木鸟,主观上,他们虽然为己谋利;客观上,却大大净化了现实消费市场,为打假维权立下了汗马功劳。$$ 《南方都市报》报道
报纸
目的 :了解河南省结核病监测区结核病死亡情况及其发展趋势。方法 :采用死亡率、 YPL L (潜在寿命损失年数 )率对河南省结核病监测区 1992~ 1998年结核病死亡情况进行分析。结
从辛夷(Magnoliabiondiipamp.)水溶性部位分离得到三个化合物,木兰碱(Ⅰ),E-对羟基桂皮酸乙酯(Ⅱ)及一个新化合物(Ⅲ),利用光谱法确定其结构为山萘素-7-O-β-(6″-对羟基桂皮酰)-D-葡萄糖甙。命名望春花黄酮醇甙Ⅰ(biondnoidⅠ,Ⅲ)。 Th
目的:分析一例乙型血友病(HemophiliaB,HB)家系的遗传学病因。方法:采用凝固法检测先证者及其家系成员凝血酶原时间(PT)、活化部分凝血酶时间(APTT)、凝血酶时间(TT),免疫比
应对突发公共事件,化解社会风险是公共财政的重要职能。分析我国突发公共事件中公共财政的应对现状,在法律支持、制度化保障和应急管理的财政投入方面存在问题。借鉴国外公共财
利用AHP方法进行各部门之间的重要性评估,通过对企业内部资源的定量分析,并与全社会同行业平均资源的对比分析,提出施工企业资源的合理分配方案及评定方法.通过与工程项目实
在日前河南省举行的一次环保工作电视电话会上,有关负责人表示,今年有奖举报单次奖励多达5万元,目前各方响应积极,要不断总结经验,适时设置职业举报人,以加强对污染企业的多元化监
报纸