论文部分内容阅读
当今时代信息爆炸,信息量规模急剧膨胀,来自四面八方的信息如浪潮般涌入人类的生活。在如此庞大的数据面前,用户想要在海量信息中快速、准确地获得自己感兴趣的新闻话题,将面临着巨大的挑战。针对大量的新闻事件,如何按照话题进行组织和归类,以便能够自动地把相关话题的信息汇总,这已成为自然语言处理中一个重要的研究课题。话题识别与划分技术应运而生,其致力于研究对来自不同的文本集进行有效的组织、搜索与结构化。全覆盖粒计算是信息处理和数据挖掘的一种新的研究方法,为具有不确定、不完整信息的大规模海量数据的挖掘提供了一种新的思路。它包括全覆盖理论和粒度的粒化、粒的运算,为子话题划分提供了一种新的解决方法。本文的创新点主要有:1、本文采用LDA(Latent Dirichlet Allocation)主题模型对海量新闻语料进行语义分析并建立模型,提取新闻文档的隐含主题,得到“文档-主题”?矩阵;通过多次实验对?矩阵中的概率设置合适的阈值,进而将“文档-主题”矩阵转换为全覆盖模型;在全覆盖粒计算的基础上,利用粒约简的方法,删除冗余覆盖元,得到最简覆盖元。2、从集合论的角度提出了全覆盖粒计算的诱导划分算法DP(DerivedPartition),探讨了该算法的理论依据,提出了算法的具体过程,分析了算法的时间复杂度;并对算法的结构及过程进行了优化,通过大量的实验验证,表明改进后确实提高了该算法的性能;最后以实例对该算法进行了进一步的解释。3、在LDA主题模型和诱导划分算法的基础上,设计基于全覆盖粒计算的面向新闻文档的子话题划分方法;通过在搜狗新闻语料库上与三种传统的Baseline方法、VSM方法以及经典的Single-Pass方法的对比实验,从不同角度验证了该方法的适用性、可行性和扩展性,说明本文算法能较好的实现子话题划分。