基于Web搜索和网页结构分析的IT相关主题新闻抓取研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:june_jt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新闻是和人们日常工作娱乐生活相关性很强的信息,对于有影响的新闻事件,深度与跨度较大的主题新闻则更具知识性趣味性,所谓主题新闻,以其及时性突出新闻的“新”,以其时间跨度大突出“主题”和专题,讲求一个“深”。近几年来,互联网成为新闻信息发布的最好平台和最大来源,各种新闻以各种形式在网上快速传播。另一方面互联网上信息的爆炸式增长,使得手工方式获取更多更全的新闻内容越来越难,而作为信息获取方案之一的搜索引擎技术取得了长足的进步,以Google为代表的搜索引擎将触角伸进互联网上信息的角角落落。如何深入全面的挖掘新闻信息,对于许多新闻相关工作意义重大,通过搜索引擎挖掘深入全面的新闻信息,是本文的研究重点,即通过进一步挖掘和某一主题相关的新闻内容,形成主题新闻。IT新闻抓取的过程,本质上是Web数据挖掘的过程。挖掘中首先对2009年热点的新闻样本进行归类和分析,在样本分类的基础上,找出各样本的特点,提出行业角色模型(Trade-role Model)。此模型的提出是在与基于用户兴趣的搜索模型对照分析的基础上完成的,最终形成一个行业角色评分公式以对样本进行评价。以此模型为基础,在本文中主题新闻抓取通过两步实现。第一步,变换关键词搜索并对搜索引擎搜索结果URL提取。此步是本文研究工作的基础,提取的质量直接决定后续工作的成败。通过对搜索引擎中Google的搜索特点的研究,在几种方案中选择利用本机程序实现对其搜索结果的利用,通过基于行业角色的模型将URL链接进行比较,通过分值对这些链接进行评价与筛选,此步将大部分垃圾或无用的链接去除,保留了与新闻主题相关的链接,并选择了分值最高的一些为后面使用。第二步,URL对应的新闻正文提取。此步是本文的最终研究成果,通过对前一步中筛选后搜索到的URL链接对应的页面进行分析,提取网页对应的文本文件,通过行业角色模型进行文本挖掘,利用TRM模型以段落为基础评价得分,最后对各段落动态平衡,利用上面的分值和新闻网页的特点比较取舍,提取其中相应新闻正文内容。从新闻样本抓取的最终结果看,平均查准率达到90.2%,平均查全率达到72.8%。最终抓取的新闻正文,也最后形成主题新闻的文字正文。由于手工提炼互联网上的新闻要耗费大量的人力,通过利用搜索引擎的结果和程序的方式提炼出相关的新闻内容,会节约大量人力资源,并使新闻事件迅速全方位呈现在网络受众面前,这也是本文研究的价值所在。
其他文献
"蓝桥计划"于2011年启动,在高职院校的课程教学改革中加入"蓝桥计划"元素是一种新的尝试。依托"蓝桥杯"全国软件和信息技术专业人才大赛,将大赛训练与日常教学相结合,为Java
目的 探讨累及肠系膜上静脉 (SMV)的胰腺钩突部癌手术切除时 ,联合SMV、门静脉 (PV)切除的手术方法、操作要点 ,以提高切除率。方法 总结 1990年 1月至 2 0 0 0年 6月手术
目的:探讨东莞市社区人群中胃食管反流病(GERD)的患病情况及其对患者的生存质量的影响,从而做出干预治疗,提高患者的生存质量。方法:自2010年3—10月,随机、分层、多阶段抽样
基于知识经济时代的一些现象及其特点的分析,旨在揭示企业发展的规模变化趋势。试图论证这样一个命题:知识经济时代企业生存区间将会扩大。即大企业规模进一步扩大,小企业进
电子商务可节省物质资源的消耗,给企业带来巨大效益。在电子商务环境下,使物流业具备了数字化、网络化和自动化等全新的特点。目前,我国电子商务物流存在着物流信息化水平不
<正>面对有线电视行业所面临的挑战,只有创新,才可能在新的形势下取得突破与发展,下面将从行业发展评价、业务创新的思考以及国网公司的知与行三个方面进行《中国有线电视行
重庆市直辖10年来,少数民族文学呈现出一派欣欣向荣的景象。诗歌、小说、散文、文艺理论及文学评论取得了丰硕成果,涌现了一批优秀少数民族作家,创作果实累累,就如花满春山。
大数据时代,商业银行竞争对手分化,新兴移动互联网企业、电商日渐分食银行利润,互联网金融的发展迫使商业银行转变经营与营销策略。银行将在客户服务、产品开发、精准营销、
市政路桥工程是城市建设的重要内容,随着有关技术手段的不断发展,现阶段我国市政路桥施工的水平明显提升,但依然还有许多地方市政路桥工程施工管理工作还存在一些问题,文章就