论文部分内容阅读
随着Internet的飞速发展,互联网已经成为人们获取新闻信息的一种重要方式,但是如何更便捷、更全面、更准确地获取相关新闻已成为一个论题。传统的单一网络媒体已经很难满足用户要求,新闻搜索引擎于是应运而生。而随着手机的普及与便捷性的进一步提高,移动新闻搜索已成为一种趋势。
本文对移动中文新闻搜索引擎的若干关键技术进行了较深入的分析与研究,并实现了系统原型。研究内容主要包括以下几点:
1)设计并实现了一种基于视觉特征的HTML新闻页面正文提取算法。该算法基于人类判断新闻正文的方式,依据汉字数量,热字数量,链接数量等因素确定正文的某一段落,通过HTML节点间的关系确定正文所在。实验表明,通过此方法能够准确的提取出新闻页面的正文部分,很好的去除广告等不相关部分。有别于传统的基于网页特定特征的提取方法,该方法使用范围更加广泛,不但无需对不同网站不同频道做相应配置调整,而且不必进行预先学习。
2)设计了移动中文新闻搜索引擎系统,给出了具体的实现方案,实现了一个系统原型,并提出了若干改进用户体验的下一步工作。