论文部分内容阅读
标题党新闻识别算法是自然语言处理研究的重点方向,随着互联网技术的发展,在信息爆炸的时代背景下,该类问题已经成为当前读者面临的比较头疼的一个方向,河南广播网和手机APP内容面临的此类问题尤为突出。本文从自然语言处理的角度研究和探讨了基于主题提取分析的标题党识别算法和基于统计计算的标题党识别算法,提出了统计计算和潜在语义相融合的标题党识别算法,改进了标题党识别的正确率。标题党识别算法主要是包括基于词频统计的加权技术和基于潜在语义索引的两类算法。前者利用统计的手段方法,通过评估新闻标题中每个词汇在新闻正文和所有语料库中所占比例的大小来实现标题党识别[1]。研究结果随着该词汇在文章中出现的次数和在整篇文章中所占的比例成正比例的增加,但同时会随着它在所有文档的语料库出现的频率成反比例减小,因此通过标题中词语占新闻中的重要程度判断该新闻是否是标题党新闻。后者通过提取与新闻标题相似的主题的句子和段落的比例的值,判断标题和新闻正文之间的相关性,通过和标题相似的句子的数量和该句子所在段落的数量来判断该文章是否为标题党。该结果随着与标题相似的句子和与标题相似句子的段落数的增加而成正比例增长,反之,随着在文章中相似的句子的数量减少和段落数的减少而减少。针对基于词汇统计计算TF-IDF值算法值的稀疏性和基于LSA潜在语义的句子段落算法值的难划分性,本文提出一种基于词频统计、LSA潜在语义分析相融合的一种方法,采用机器学习方式,通过将正文和标题的向量的计算结果作为特征工程的特征值及成为决策树算法的属性来进行标题党的识别,在准确率和召回率上都有了很大的提升,最终算法结果以准确率91%和召回率92%的值进行数据的识别。为进一步实现上述几种标题党识别算法存在的弊端、优点和缺点,本文以大量的标题党和非标题党新闻数据进行实验和展示,并对其进行分析和总结。