基于全覆盖粒计算的新闻文档子话题划分方法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:xiaowen51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代信息爆炸,信息量规模急剧膨胀,来自四面八方的信息如浪潮般涌入人类的生活。在如此庞大的数据面前,用户想要在海量信息中快速、准确地获得自己感兴趣的新闻话题,将面临着巨大的挑战。针对大量的新闻事件,如何按照话题进行组织和归类,以便能够自动地把相关话题的信息汇总,这已成为自然语言处理中一个重要的研究课题。话题识别与划分技术应运而生,其致力于研究对来自不同的文本集进行有效的组织、搜索与结构化。全覆盖粒计算是信息处理和数据挖掘的一种新的研究方法,为具有不确定、不完整信息的大规模海量数据的挖掘提供了一种新的思路。它包括全覆盖理论和粒度的粒化、粒的运算,为子话题划分提供了一种新的解决方法。本文的创新点主要有:1、本文采用LDA(Latent Dirichlet Allocation)主题模型对海量新闻语料进行语义分析并建立模型,提取新闻文档的隐含主题,得到“文档-主题”?矩阵;通过多次实验对?矩阵中的概率设置合适的阈值,进而将“文档-主题”矩阵转换为全覆盖模型;在全覆盖粒计算的基础上,利用粒约简的方法,删除冗余覆盖元,得到最简覆盖元。2、从集合论的角度提出了全覆盖粒计算的诱导划分算法DP(DerivedPartition),探讨了该算法的理论依据,提出了算法的具体过程,分析了算法的时间复杂度;并对算法的结构及过程进行了优化,通过大量的实验验证,表明改进后确实提高了该算法的性能;最后以实例对该算法进行了进一步的解释。3、在LDA主题模型和诱导划分算法的基础上,设计基于全覆盖粒计算的面向新闻文档的子话题划分方法;通过在搜狗新闻语料库上与三种传统的Baseline方法、VSM方法以及经典的Single-Pass方法的对比实验,从不同角度验证了该方法的适用性、可行性和扩展性,说明本文算法能较好的实现子话题划分。
其他文献
在新的移动互联网环境中,不同的无线接入技术相互融合,通信终端通常具有多种网络接口(例如Wi-Fi和3G),两个互相通信的端主机之间存在多条可用路径。MPTCP是由IETF MPTCP(MultiPath
量子径向基函数神经网络是一种把量子并行计算的概念引入到传统的径向基函数神经网络而得到的一种新的量子神经网络模型。该模型结合了量子和径向基函数两者的优点,具有运算
海洋逐渐成为人类探索的重要领域,人们进行海洋科研工作主要通过水下成像得到水下目标信息。随着人们对水下信息的需求逐渐增加,水下成像系统的硬件设施承受压力也逐渐增大。近
双视点立体视觉是计算机视觉中的重要组成部分,在影视、医疗、游戏、监控等方面越来越受到人们的重视。在双视点立体视觉中,立体匹配被用作寻找双视点图像的对应特征点。随着图
滚动轴承作为直升机自动倾斜器的核心部件,一旦出现异常将影响直升机的正常飞行,因此,研究滚动轴承故障诊断方法对于保障直升机的安全性和可靠性具有重要意义。本文在航空科
认知无线电技术旨在通过对空闲频段的及时发现与高效利用,实现频谱资源的有序共享,抑制由“独占”式频谱分配原则带来的弊端,缓解频谱资源需求与储量间的巨大矛盾。频谱感知
随着医疗技术的不断发展,现如今医生对于自动化医疗设备的依赖程度越来越高,而医学图像领域的快速发展使得很多以前很棘手的问题也得以解决。以前在临床中,对于医学图像,医生
人脸识别是模式识别和人工智能领域的研究热点。人脸特征提取是人脸识别的核心步骤,其特征提取的效果将直接影响到人脸识别系统的性能。室外的摄像系统极易受到雨雪天气的影响
数字图像作为信息传递的一个优秀载体,广泛应用在新闻传媒,影像信息采集,案件取证,安全区域监控,医疗卫生,科学理论鉴定、科技发展等众多领域。数字图像编辑软件的发展与普及,使得用
计算机立体视觉在精密加工、机器人导航、物体识别等领域有着广泛的应用。立体测量作为计算机视觉的主要组成部分,可以分为接触式测量和非接触式测量两种。编码结构光作为非接