基于人工智能--自然语言处理标题党新闻识别方法研究

来源 :2018年中国电影电视技术学会广播融媒技术专委会年会 | 被引量 : 0次 | 上传用户:spsnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  标题党新闻识别算法是自然语言处理研究的重点方向,随着互联网技术的发展,在信息爆炸的时代背景下,该类问题已经成为当前读者面临的比较头疼的一个方向,河南广播网和手机APP内容面临的此类问题尤为突出。本文从自然语言处理的角度研究和探讨了基于主题提取分析的标题党识别算法和基于统计计算的标题党识别算法,提出了统计计算和潜在语义相融合的标题党识别算法,改进了标题党识别的正确率。标题党识别算法主要是包括基于词频统计的加权技术和基于潜在语义索引的两类算法。前者利用统计的手段方法,通过评估新闻标题中每个词汇在新闻正文和所有语料库中所占比例的大小来实现标题党识别[1]。研究结果随着该词汇在文章中出现的次数和在整篇文章中所占的比例成正比例的增加,但同时会随着它在所有文档的语料库出现的频率成反比例减小,因此通过标题中词语占新闻中的重要程度判断该新闻是否是标题党新闻。后者通过提取与新闻标题相似的主题的句子和段落的比例的值,判断标题和新闻正文之间的相关性,通过和标题相似的句子的数量和该句子所在段落的数量来判断该文章是否为标题党。该结果随着与标题相似的句子和与标题相似句子的段落数的增加而成正比例增长,反之,随着在文章中相似的句子的数量减少和段落数的减少而减少。针对基于词汇统计计算TF-IDF值算法值的稀疏性和基于LSA潜在语义的句子段落算法值的难划分性,本文提出一种基于词频统计、LSA潜在语义分析相融合的一种方法,采用机器学习方式,通过将正文和标题的向量的计算结果作为特征工程的特征值及成为决策树算法的属性来进行标题党的识别,在准确率和召回率上都有了很大的提升,最终算法结果以准确率91%和召回率92%的值进行数据的识别。为进一步实现上述几种标题党识别算法存在的弊端、优点和缺点,本文以大量的标题党和非标题党新闻数据进行实验和展示,并对其进行分析和总结。
其他文献
  近年来,电力发展已进入市场经济阶段,电厂管理不仅为了稳发满发,还要求以最经济的成本供电,提高经济效益。在火电厂中,泵与风机是最主要的耗电设备,容量大、耗电多。因此,泵与风
  本文重点分析了某电厂220kV母线发生接地故障引起母差保护动作造成母线停电事故,着重从数据调取和现场勘察上全方位进行事故分析,并对事故中暴露的一些问题进行分析。
  主要描述分析了某火电厂6kV负荷开关近端短路造成继电保护装置越级动作,厂用高压母线失压机组被迫停机的扩大事故。本文重点就故障时刻电流互感器深度饱和的输出波形分析
  本文根据直流系统规程及反措的要求,结合国内具体电厂实例,对火电厂直流系统的配置和接线进行分析,为电厂直流系统的电压选择、系统接线配置、辅助车间直流电源设置、直流双
  户县第二热电厂330kV变电站在基建期采用了一种特殊的有推广意义的非经典3/2主接线方式,这种特殊的主接线方式能够节约设备投资和占地面积,但是使继电保护配置复杂化。本文
  发电机组的一次调频功能是稳定系统频率的一项重要技术措施,对于实现电网发电自动调度、提高电能质量、维持电网安全稳定运行起到重要作用。一次调频功能的投入是电网频率
  利用公共无线网络4G高清语音平台的通信链路,将具有VOLTE功能的手机作为传输主体与控制电路相连,构成现场直播语音信号的无线传输及其音频信号能远程切入广播总控机房接收
  分析系统冲击过程中发电机功率变送器输出畸变导致机组协调控制功能混乱的原因,并提出相关预防控制措施。通过采用新型智能变送器抑制系统冲击时直流以及谐波分量造成的发
  铜陵电厂5号机组是安徽省首台单机容量为1000MW的超超临界发电机组,通过500kV母线接入华东电网,电厂侧采用电压无功自动控制系统(automatic voltage control,AVC)对500kV
  本文对一次调频的原理和主要技术指标进行了详细介绍,提出一系列信号采集及逻辑优化提高一次调频考核指标的优化方案,使火电机组的一次调频技术指标满足华东电网的要求,实现