基于互联网的话题分类及敏感话题发现技术研究与实现

被引量 : 0次 | 上传用户:llljjjxxx777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的蓬勃发展,人们获取信息及知识的渠道也发生了很大的变化。传统方式的信息传播,如电视、报纸、广播等方式,逐渐退出了传媒的主流地位。互联网这一新兴的传播方式很快被人们所接受,中国网民目前数量大约6亿多(包含手机终端等),极致反映出互联网信息的重要性。虽然互联网是现在人们获得信息的一种常用且重要的手段,但是它是巨大的、复杂的、多样的和动态变化的。所以,在数以亿计海量的数据面前,如何快速且准确地获取用户感兴趣的信息与知识,是本论文的终极目标。在本系统中,我们运用的主要技术有话题爬虫、全文检索以及WEB文本挖掘。通过对这些技术研究与实现,有价值的知识和高层次的话题就能从相应的话题集合中抽取出来,从而使得凌乱、庞大的话题集为我们提供可靠且有序的知识支持与话题支撑服务;这个系统不仅能够查找出以往过期的话题(即历史话题),而且能够分析出哪个话题更具有权威性以及哪个话题与关键字匹配更密切,为用户得到更好的查询与体验效果提供了有力的支持。只不过,本系统中的话题来源于异常庞大的互联网,与常见的数据库和数据集合有很大不同。所以,我们首要任务要得到话题源,也就是从互联网上爬取相关的页面话题,然后进行处理,整理并过滤掉垃圾信息,为后面挖掘所感兴趣的知识提供基础数据支持,这个过程我们称之为话题爬虫。挖掘话题的实现是通过建立索引、分类话题以及检索话题来完成的。系统调用目前比较完善的全文检索系统Lucene所提供的应用程序相关接口,分析相应话题,构建索引,实现了通过关键词快速定位与实时查找的功能。用户通过查询模块的过滤与结果重排,来得到其感兴趣的内容。本论文结构紧凑,首先介绍本课题相关背景与意义,通过阐述所需要的基本知识与相关技术细节来引出本课题研究的重难点问题以及整体框架设计,然后详细说明本课题实现的各个功能模块设计与实现,最后给出本课题测试结果与总结。
其他文献
随着科技日新月异的发展,计算机性能也随之大幅提高,计算机系统中兼容了各种各样仪器仪表的功能。越来越多的仪器仪表将自己的功能模块集成到计算机系统中,这样能够有效的减
本文介绍了食品包装材料的食品接触材料特定迁移物双酚A等影响材料安全性从而导致食品安全问题的初步研究,尤其是云南省出口产品的质量安全现状。主要针对目前云南省出口企业
近年来,伴随着移动支付业务的快速发展,移动支付风险管理问题引起了广泛关注。本文对移动支付终端风险、信息安全风险、系统风险、欺诈风险和消费者权益侵害风险进行了详细分
本文为“河套灌区衬砌渠道综合糙率及冲淤问题的研究”项目的部分研究成果,主要对目前河套灌区骨干渠道的非均质防渗村砌结构(全断面PE膜防渗,两侧边坡用预制混凝土板护面,渠底为
以工程咨询企业为例来说明知识型服务企业知识存量增长的机理。通过扎根理论研究方法和共生理论的研究框架,研究发现共生是工程咨询企业知识存量增长的主要原因。在一定的共
潍坊市牛寨红水谷旅游地区块规划在尊重历史和现状的基础上,通过研究分析牛寨的风景资源、变迁历史和地域特征,从资源保护、历史延续与景观再生三方面出发,充分汲取规划地域
《舌尖上的中国》在国内热播,收视率超过同时段的电视剧,它引起的大量话题开始流行.在当前中国的媒介环境下,这部讨论饮食文化的纪录片,在选题上有自然的贴近性.央视纪录片制
<正> 十八世纪,在法国兴起了一场启蒙运动。这是继文艺复兴之后又一次伟大的思想解放运动。这次运动涉及的领域广泛,气势磅礴,绵延了大约一个世纪之久。它砸碎了宗教神学和蒙
<正>如果用一个关键词诠释中国农业银行的责任担当,"惠农"应该最为恰当。而要实现惠农理想,重在探索一条普惠性和商业化运作有效融合的道路。近几年,农行充分践行普惠金融理
财政部已发布《企业会计准则第39号——公允价值计量》,自2014年7月1日起施行。《企业会计准则第39号——公允价值计量》(以下简称"公允价值准则")明确了公允价值的定义,规定