三种主题分割方法的对比研究

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户：cwg8872757

【摘要】

：

文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用。基于PLSA及LDA模型的文本分割试图使隐藏于片段内的不同主题与文本表面的词、句对建

【作者】

：

石晶李万龙

【机构】

：

长春工业大学计算机科学与工程学院,吉林大学计算机科学与技术学院

【出处】

：

计算机工程与应用

【发表日期】

：

2009年18期

【关键词】

：

文本分割概率潜在语义分析模型 LDA模型小世界模型 text segmentation Probabilistic Latent Semantic Ana

【基金项目】

：

长春工业大学博士基金（No.2008A02）.致谢：在研究中用到一些基础性的工作,包括电子常识知识库《知网》,汉语词法分析系统ICTCLAS,人民日报手工标注语料库以及文本分类语料库.所有这些资源可以网上下载,限于研究使用.《知网》是董振东先生设计和开发的,其2000版以及2005微型版均可在互联网http：//www.keenage.com上下载.ICTCLAS是中国科学院计算技术研究所经过多年

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用。基于PLSA及LDA模型的文本分割试图使隐藏于片段内的不同主题与文本表面的词、句对建立联系，而基于小世界模型的分割则依据小世界模型的短路径、高聚集性的特点实现片段边界的识别。从模型的特点、分割策略以及实验结果等角度对基于三种模型的分割进行对比。分析表明，基于LDA模型的分割比基于PLSA模型的分割具有更大的稳定性，且分割效果更好。基于小世界模型的分割策略更适合小世界模型特性明显的文本：

其他文献

可证安全的无证书群签名方案

提出一个安全有效的无证书群签名方案。该方案满足群签名的各种安全性要求，还允许用户动态地加入与离开且不需更新群公钥和其他群成员的签名私钥。群签名的长度不依赖于群成员

期刊

群签名无证书密码体制双线性映射随机预言器计算Differ-Hellman问题group signature certificateless cryp

关于L-直觉模糊集截集性质的进一步研究

在L是完全分配格时,利用极大集与极小集所引入的L-直觉模糊集的截集,本文定义了L-直觉模糊凸集的概念,给出其与L-直觉模糊集截集的凸性之间的等价刻画.进一步研究了L-直觉模

期刊

L-直觉模糊凸集截集二元运算L-intuitionistic fuzzy convex setCut set Binary operation

随机圆覆盖面积的统计分布

用数论方法解决单位正方形的覆盖问题.用单位正方形的均匀布点方法估计覆盖面积的均值,方差及其分布函数.

期刊

数论方法均匀设计BETA分布number theoretic method uniform design Beta-distribution

FC-空间中的截口定理及其应用

将KyFan截口定理推广到FC-空间.作为应用,在FC-空间上进一步推广了Browder不动点定理,并研究了向量值函数的极大极小值,极大极小不等式以及鞍点问题.

期刊

FC-空间转移开(闭)映象KKM映象截口定理FC-space transfer open （closed） valued mapping KKM map

加权最大频繁子图挖掘算法的研究

如何从大量的图中挖掘出令人感兴趣的子图模式已经成为数据挖掘领域研究的热点之一。传统的频繁子图挖掘方法对满足最小支持度阈值的子图同等对待，但在真实数据库中不同的子图

期刊

数据挖掘最大加权频繁子图邻接矩阵规范编码data miningweighted maximal frequent subgraph adjacency

任意拓扑网的细分改进

在改进任意拓扑网构造光滑表面时,初始控制网格确定的情况下,生成的曲面形状惟一确定,最终的物体造型也随之确定,不具有可调性,因而在曲面细分过程中引入了控制参数和摄动。通过引入控制参数,调节一个参数值,使得所得的细分曲面的表达度可控,可以得到一系列的细分曲面。引入摄动是为了改进了空间位置,允许局部地调控约束曲面的形状。最后给出了曲面设计的实例,表明这种算法简单、有效。

期刊

网格曲面Catmul1-Clark算法实体造型可控细分mesh surface Catmul 1-Clark subdivision object m

有限群的模糊C-正规子群

给出了模糊C-正规子群、模糊极大正规子群的概念，并利用集合套理论给出了模糊C-正规子群的等价定义，同时研究了模糊-正规子群的一些性质。

期刊

集合套模糊C-正规子群模糊极大正规子群nested setsfuzzy C-normality subgroupsfuzzy maximum normal

带强迫项的二阶脉冲时滞微分方程的振动性

研究带强迫项的二阶脉冲时滞微分方程的振动性，得到了若干判别此类方程振动的充分性条件，所得结果推广并改进了时滞微分方程的振动性理论中某些已知的相关结果．

期刊

脉冲时滞微分方程振动性impulse delay differential equation oscillation

模糊值函数极限与连续的模糊结构元表述

在模糊值函数的模糊结构元表述理论的基础上，利用[-1，1]上同序标准单调函数类上的距离诱导出模糊值函数空间上的距离，证明了模糊实数空间与[-1，1]上同序单调函数类同胚．模糊数空间