面向新闻领域的蒙古文新事件检测方法研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:green7116aaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着蒙古文网络资源的不断增多,对蒙古文信息进行新事件检测,进而在庞大的信息源中及时掌握最新动态的需求不断增加。然而目前为止在国内外对于蒙古文新事件检测方法的研究仍处于起步阶段,亟需对其进行进一步研究。在蒙古文新闻领域的新事件检测中,优化新闻内容表示和充分利用新闻语料信息是两个核心问题,其方法优劣直接影响着最终的检测结果。本文针对优化蒙古文新闻内容表示和充分利用语料信息这两个核心问题,对蒙古文新闻领域的新事件检测方法展开研究,具体研究内容和创新点如下:首先,针对优化新闻内容表示,本文提出了基于特征词权重优化的向量空间模型的文本表示方法。本文以向量空间模型(Vector Space Model,VSM)为基础,对词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法进行了改进,根据新闻的特点,对新闻标题、首段和每段的首句出现的特征词特殊加权,利用统计方法优化不同新闻类别中不同命名实体特征词的权重系数,根据新事件检测任务特点,使用类频方差优化不同新闻类别中分布情况不同的特征词权重系数。实验结果表明,相比传统的VSM模型,该方法对系统性能有一定的提升,标准化代价降低了6.42%。其次,针对VSM语义丢失以及降维能力不足的问题,本文提出了基于特征词权重优化的VSM与潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)向量特征融合的方法。本文引入LDA主题模型,提取文本在隐主题空间上的向量分布,挖掘文本内容中的潜在语义信息,将基于特征词权重优化的VSM与LDA向量特征融合的方法应用于蒙古文新事件检测当中。实验结果表明,相比传统的VSM模型,该方法进一步提升了系统性能,标准化代价降低了9.86%。最后,针对传统的新事件检测系统无法有效区分内容相似的不同事件这一难点,本文提出了基于新闻要素融合的新事件检测方法。本文引入深度学习技术,使用注意力机制与双向长短期记忆神经网络和条件随机场相结合的(Attention+BiLSTM+CRF)神经网络模型提取了新闻要素,包括时间、地点、主体和客体,将新闻内容相似度与新闻要素相似度融合作为最终的相似度来进行蒙古文新事件检测。实验结果表明,相比传统的VSM模型,系统性能有了进一步的提升,标准化代价降低了10.95%。
其他文献
当今社会发展日新月异,而我们赖以生存的环境也变得日益复杂,挥发性有机污染气体(甲醛、苯及苯系化合物、甲醇、丙酮等)在生活中随处可遇,时刻危害着人体健康,而且一旦引发疾病
随着深度学习的飞速发展,计算机视觉领域的技术也越来越多的被应用到人们的日常生活中。人脸识别作为计算机视觉领域的一个分支,在深度学习快速发展的同时,基于深度学习方法
方钴矿材料具有相对较高的功率因子和优良的机械性能,在中温热电材料领域极具应用潜力,但较高的晶格热导率对热电优值的提高有一定的限制。所以在确保方钴矿材料电性能不降低
医学影像分类技术是计算机辅助诊断中的关键技术,但是“语义鸿沟”、数据不均衡、维数灾难等问题阻碍了分类模型在临床中的推广。作为经典语言模型,N-Gram模型对于解决该类问
目的:图像配准是医学图像分析中的基本任务。传统的图像配准任务尤其是非刚性配准算法,需要较高的计算成本以及较长的执行时间。但是随着计算机技术的发展以及深度学习的复兴
公共自行车作为一种绿色交通工具,深受民众喜爱,是人们日常出行的重要方式,但是最近几年,随着共享自行车系统规模逐渐增大、使用频率的增加,公共自行车使用不均衡问题严重影
无线传感器网络(WSN)是通过对特定区域进行数据采集、处理和汇聚,来实现区域监控的一种新兴技术。由于传感器节点的能量和传输功率有限,在无线通信过程中常受到噪声、多径效
内蒙古沙漠地区的煤制气产业在生产过程中排放大量废水,使土壤受到污染,为治理该地区受到煤制气废水污染的砂土,采用固化法对污染砂土进行处理。通过研究固化物的无侧限抗压
染料废水的大量排放造成了严重环境污染问题,随着我国《纺织染整工业水污染物排放标准》的颁布实施,对染料废水排放要求更加严格。活性艳蓝K-GR作为一种重要的活性染料,广泛
本文采用加压烧结法,制备了3vol.%、6vol.%、9vol.%和12vol.%B4C/6061Al复合材料,利用硬度计、DSC示差扫描分析、SEM、TEM和万能电子试验机等设备,系统研究了四种复合材料时