论文部分内容阅读
随着蒙古文网络资源的不断增多,对蒙古文信息进行新事件检测,进而在庞大的信息源中及时掌握最新动态的需求不断增加。然而目前为止在国内外对于蒙古文新事件检测方法的研究仍处于起步阶段,亟需对其进行进一步研究。在蒙古文新闻领域的新事件检测中,优化新闻内容表示和充分利用新闻语料信息是两个核心问题,其方法优劣直接影响着最终的检测结果。本文针对优化蒙古文新闻内容表示和充分利用语料信息这两个核心问题,对蒙古文新闻领域的新事件检测方法展开研究,具体研究内容和创新点如下:首先,针对优化新闻内容表示,本文提出了基于特征词权重优化的向量空间模型的文本表示方法。本文以向量空间模型(Vector Space Model,VSM)为基础,对词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法进行了改进,根据新闻的特点,对新闻标题、首段和每段的首句出现的特征词特殊加权,利用统计方法优化不同新闻类别中不同命名实体特征词的权重系数,根据新事件检测任务特点,使用类频方差优化不同新闻类别中分布情况不同的特征词权重系数。实验结果表明,相比传统的VSM模型,该方法对系统性能有一定的提升,标准化代价降低了6.42%。其次,针对VSM语义丢失以及降维能力不足的问题,本文提出了基于特征词权重优化的VSM与潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)向量特征融合的方法。本文引入LDA主题模型,提取文本在隐主题空间上的向量分布,挖掘文本内容中的潜在语义信息,将基于特征词权重优化的VSM与LDA向量特征融合的方法应用于蒙古文新事件检测当中。实验结果表明,相比传统的VSM模型,该方法进一步提升了系统性能,标准化代价降低了9.86%。最后,针对传统的新事件检测系统无法有效区分内容相似的不同事件这一难点,本文提出了基于新闻要素融合的新事件检测方法。本文引入深度学习技术,使用注意力机制与双向长短期记忆神经网络和条件随机场相结合的(Attention+BiLSTM+CRF)神经网络模型提取了新闻要素,包括时间、地点、主体和客体,将新闻内容相似度与新闻要素相似度融合作为最终的相似度来进行蒙古文新事件检测。实验结果表明,相比传统的VSM模型,系统性能有了进一步的提升,标准化代价降低了10.95%。