论文部分内容阅读
随着互联网技术的发展,网页新闻的标题抽取已经成为了信息抽取和网络爬虫中不可避免的一个环节﹒通过分析,发现目前已有的方法存在准确率和通用性无法共存的问题﹒因此,提出了一种基于文本相似度的网页新闻标题自动抽取算法,它通过结合目录型新闻网页的外部标题来抽取详情型新闻网页的真实标题﹒试验结果表明,相对现有方法来说,新算法具有较好的通用性且平均F1值达到了97.58%﹒