移动中文新闻搜索引擎的设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:lbw001001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,互联网已经成为人们获取新闻信息的一种重要方式,但是如何更便捷、更全面、更准确地获取相关新闻已成为一个论题。传统的单一网络媒体已经很难满足用户要求,新闻搜索引擎于是应运而生。而随着手机的普及与便捷性的进一步提高,移动新闻搜索已成为一种趋势。 本文对移动中文新闻搜索引擎的若干关键技术进行了较深入的分析与研究,并实现了系统原型。研究内容主要包括以下几点: 1)设计并实现了一种基于视觉特征的HTML新闻页面正文提取算法。该算法基于人类判断新闻正文的方式,依据汉字数量,热字数量,链接数量等因素确定正文的某一段落,通过HTML节点间的关系确定正文所在。实验表明,通过此方法能够准确的提取出新闻页面的正文部分,很好的去除广告等不相关部分。有别于传统的基于网页特定特征的提取方法,该方法使用范围更加广泛,不但无需对不同网站不同频道做相应配置调整,而且不必进行预先学习。 2)设计了移动中文新闻搜索引擎系统,给出了具体的实现方案,实现了一个系统原型,并提出了若干改进用户体验的下一步工作。
其他文献
随着数字化医疗设备在临床医学诊断中的大量采用,以及计算机技术在医院的广泛应用,医学影像数据正在呈海量增长,现有的存储、计算及管理方式面临着巨大的挑战。基于医院现有HIS
半Markov决策过程(SMDP)是离散事件动态系统用于描述随机序贯决策问题的一类基本模型,其性能的分析和优化对许多现实系统具有重要的指导意义。在SMDP模型中,状态的转移概率和性
学位
中间逻辑是强弱介于经典逻辑与直觉主义逻辑之间的一大类命题逻辑。近年来,这些逻辑在计算机科学领域中受到极大的重视。而范式在逻辑及其相关领域中起着很重要的作用,特别是对
本文设计并且实现了英文文本到中文文本的单向英汉机译实验系统。首先介绍了机译词典的构建和机译词典导入MySQL数据库;随后按照英汉机译系统的先后顺序分成的七个处理阶段:单
作为一项与多学科交叉的世界前沿技术,无线传感器网络备受人们关注。无线传感器网络具有高度的自组织特性、可信性、动态性和抗破坏性等特点,但由于传感器节点的电源能量是非常
全球互联网迅猛发展,互联网经济主流模式——电子商务随之风声雀起,企业在开展电子商务中对信息处理有着较高的要求,客观上要求实现企业管理系统集成,其业务主旋律必然转向企业信
随着计算机网络应用的不断发展,网络安全问题也日益突出。越来越多的安全技术被应用到网络安全领域。入侵检测是网络安全体系中新兴的一门技术,它是一种主动的防御技术,也是
无线传感器网络是近年来发展迅速并拥有广阔前景的技术。但能量问题一直制约着无线传感器网络的大规模、长时间应用,是目前该领域研究的重点。通过采集环境能量,尤其是通过采
Web2.0技术将世界带入了一个社交网络时代,社交网络如中国的新浪微博,Facebook,MySpace,Twitter等都已经成为极具影响力的平台。SNS(SocialNetworking Services)结合了用户群和信息,