文本流多粒度主题结构建模研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:shishaofei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题检测近年来在文本挖掘和自然语言处理领域得到了广泛的应用,对主题进行结构建模是主题检测的基础。为了对文本流中的多粒度主题进行建模,提出一种基于语义层次树的主题结构模型。该模型利用领域本体的特点,将主题同本体作一一映射,结合概率理论,将概念集里的概念用主题树的叶子节点表示,每一层中的节点均是下一层节点的多项分布,使之更适合描述文本流中多粒度的主题结构。为了便于构建主题的空间结构,提出主题的相似度和事件相关度计算方法。该文结尾设计了实验构造真实新闻文本流数据上的主题树。实验结果表明,该结构模型能够体现主题丰富的多粒度空间语义特征。
其他文献
在初中道德与法治教学中,教师要提高设问技巧,用高效的问题提升学生的学习效率。教师可以利用生成性提问让学生的思考更为深入,利用感染性提问升华学生的情感,利用探究性提问
目的探讨雌激素对围绝经期患者尿路感染的改善作用。方法选择2017年1-12月于医院就诊的围绝经期尿路感染患者104例为研究对象,随机分为对照组与试验组,各52例。对照组患者常
组织蛋白酶D(cathepsin D,CTSD)是真核细胞溶酶体中天冬氨酸蛋白酶家族的主要成员,具有非常独特的合成和转运方式.CTSD由粗面内质网合成,通过多种蛋白质水解途径最终抵达细胞
目的测定头孢地嗪钠(CDZ)的热性质,研究CDZ的热分解机理、热分解动力学和CDZ的热稳定性。方法采用热重法(TG)和差示扫描量热法(DSC)测定CDZ在氮气氛和空气氛中的热分解过程,测定CDZ
目的:探讨联检肿瘤标志物CA19-9、CA50、CA242和TSGF在胰腺癌诊断中的应用价值。方法:选取2008年7月~2011年10月来我院体检、就诊以及住院的患者共160人,进行了CA19-9、CA50、
综合经验事实 ,提出对于同一个受试者和同一种呈现事件 ,近似描述情绪体验强度与客观呈现事件数量之间的一个数学公式。
该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可
目的研究穴位贴敷治疗脑出血后肌痉挛临床疗效。方法通过穴位贴敷作用于脑出血后肢体痉挛的患肢阳经穴位,与电针治疗、药物治疗相对照,在治疗前后评价三组患者的患侧肢体痉挛
信息素养已经成为信息时代每个人必须具备的基本素养,本文通过对信息素养及相关概念的梳理,从主客关系的角度阐述了信息素养的基本内涵,并对信息素养与计算机素养、技术素养