分布式环境下企业新闻信息分类子系统的设计与实现

来源 :延边大学 | 被引量 : 0次 | 上传用户:vitalee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的迅猛发展,各种各样的新闻层出不穷,新闻信息在人们的文化、生活等各个方面发挥着越来越重要的作用。如何对大量的新闻数据进行收集、整理,并突显出人们想要查找的新闻,是本文研究的主要问题。针对目前常见的搜索引擎存在着查找到的新闻信息过多,与主题关联性不强等问题,本文提出并设计了一个面向企业的新闻分类子系统。该系统具备新闻采集、信息处理及新闻展示等功能。企业用户可以利用该系统快速、准确地获取与其行业相关的新闻。首先,系统设计了网络爬虫模块。使用广度优先算法编写了爬虫软件,通过该软件可以实现对企业感兴趣新闻信息高效的采集与识别。其次,设计并实现了文本分类模块。在该模块中,使用分布式贝叶斯算法对新闻文本进行分类。在分类过程中,文本的预处理、特征选择以及向量化需要大量计算;在模型训练时,也存在着训练时间长、数据库存储容量有限等问题。为了解决以上问题,本文搭建了 Hadoop分布式计算平台,利用MapReduce并行计算模型对文本分类过程中的不同阶段进行了分布式并行处理,并建立Hive数据仓库以解决占用存储空间大的问题。当面临大量新增数据时,传统的贝叶斯方法需要将之前的所有样本数据全部重新学习一次,这样不仅会耗费大量时间,而且操作起来也相当麻烦。针对这种情况,本文引用了传统的增量学习方法,设计并实现了增量式贝叶斯算法,该方法不用重新训练数据,只需对原有的数据进行修正。最后设计了一个面向企业新闻信息的分类子系统,主要包括信息采集、文本预处理、特征提取、分类器构造、分类性能评估和增量学习几个流程,并对系统的几个模块功能进行了测试。本系统利用爬虫进行新闻信息的获取,并在Hadoop环境下对新闻信息进行分类。通过测试表明,在大规模新闻信息的情况下,Hadoop下的增量分类器相比于传统的贝叶斯分类器算法准确率提高4%左右,表现出了良好的执行效率及较高的拓展性。本文给出了网络新闻文本分类的实现方案,对其它领域的文本分类具有借鉴意义。
其他文献
为确定昌图县花生最佳施肥量,采用"3414"试验,研究氮、磷、钾肥对花生生长性状及产量的影响。结果表明:少施或缺施肥料对花生的长势和产量有不同程度的影响;合理的氮、磷、钾
近年来,随着医疗保障制度和城镇医药卫生体制改革的深化与实施,医疗费用不断增长的势头得到了有效遏制,但从整体上看,目前,医疗费仍停留在较高水平。现根据国家卫生部全国卫生统计
报纸
就对工业革命的理解而言,卡尔.波兰尼和道格拉斯.诺斯之间形成了鲜明的对立。前者从互惠、再分配和市场的分析框架来解释市场社会的形成,而后者则关注交易成本与制度变迁之于
<正>证人出庭作证可能使自己乃至家人的生命受到威胁。那么怎么样才能使证人大胆出庭,开口讲话?前几年,美国中部俄克拉何马州州政府发生汽车炸弹爆炸事件,造成168人死亡,500
目的 调查分析门诊病人费用情况 ,为控制医疗费用的上涨 ,为适应医疗改革提供依据。方法 采用横断面调查方法 ,对本院门诊病人的性别、年龄、住址、医疗费用承担方式及药费
目的分析影响脑卒中偏瘫患者运动功能、日常生活活动能力恢复的因素。方法康复治疗前后,对67例脑卒中偏瘫患者采用上田敏偏瘫上下肢功能评定、功能独立性测量(FIM)、Berg平衡
利用革命纪念馆对青少年进行爱国主义教育,必须始终坚持正确的政治方向,必须坚持以马列主义、毛泽东思想以及邓小平建设有中国特色社会主义理论为指导;必须充分发挥纪念馆的
<正>病毒性乙型肝炎对儿童身体健康危害极大,尤其是儿童可危害其终身[1]。为了解龙井市城市中小学生HbsAb、HBsAg情况,对2008年城市中小学校体检结果进行分析。1对象与方法1.
基于群落调查、美景度评判及色彩定量分析,对陕西省金丝大峡谷国家森林公园的秋季景观林的色彩量化进行初步研究。结果表明:1)低海拔地区与高海拔地区相比,物种丰富度,多样性
高中物理课堂教学改革的核心环节是高中物理课堂教学设计。高中物理课堂教学设计应遵循的原则有:尊重个体差异,坚持学生中心;创设差异情境,促进主动建构;注重差异反馈,针对个