【摘 要】
:
针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种PCCMix混合模型来实现跨文本集的话题分析.该模型把多个文本集中的话题划分为公共话题和文本集特有话题,首先根据文本
【机 构】
:
国防科学技术大学信息系统工程重点实验室
【基金项目】
:
国家自然科学基金资助项目(60903225),湖南省自然科学基金资助项目(11JJ5044),国防科学技术大学优秀研究生创新基金资助项目(S100502)
论文部分内容阅读
针对当前主要的CTM模型只能分析公共话题的缺陷,提出一种PCCMix混合模型来实现跨文本集的话题分析.该模型把多个文本集中的话题划分为公共话题和文本集特有话题,首先根据文本数据建立这两类话题在所有词上的概率分布,再使用期望最大化算法进行模型的参数估计.实验结果表明,该模型不仅能够发现公共话题在不同文本集中的差异,而且能分析各文本集特有的话题,模型能更精确地对文本建模,具有良好的性能.
其他文献
首先分析苏北五市的经济运行情况,重点分析物流业和制造业的发展情况以及在江苏省的地位。以徐州市为例,运用主成分分析法分析物流业和制造业的主要成分,再结合协调度模型,测
例1,女,38岁,入院前4 d因"感冒"发烧,于当地诊所输液治疗,具体用药不详.次日感左眼胀痛,视物不见,当地医院诊为"左眼葡萄膜炎",给予"强的松"口服2 d后转我院.入院查体:视力左
我院自1997年9月至2003年9月用放射性同位素90Sr-90Y敷贴治疗皮肤血管瘤76例,获得较好疗效,现报告如下.1资料与方法1.1临床资料76例患者均来源于本院皮肤科门诊,男29例,女47
针对长途司机对物流行业的影响很大,当前还没有一个有效的定量分析司机离职对物流企业绩效发展风险预警的数学模型,无法从科学和数学角度定量地分析司机离职的影响和预警的问题
目的原癌基因C-mer与增生性病变关系密切.本研究探讨它在增生性瘢痕中所起的作用及意义.方法收集瘢痕作为研究对象,利用原癌基因C-mer的基因特异片段制成寡核苷酸探针,与瘢痕
为研究承压截流井的淤积机理,应用CFD方法进行数值模拟,并以声纳现场实测数据检验.在基于DPM的临界床面切应力模型基础上,应用遗传算法的概率选择方法,提出颗粒"概率沉降"模型,
采用并行计算方法,分别选取长周期地震波和普通地震波作为输入,以某典型桥梁工程为背景建立土桩桥梁结构非线性相互作用分析模型,对在不同类型地震波作用下的土桩结构非线性
为提高LTE-Advanced系统小区边缘用户的吞吐量和用户体验,在现有协作多点传输(Coordinated Multi-Point,CoMP)方案基础上提出了两种CoMP系统的单频网(Sin-gle Frequency Network
目的研究CTLA4Ig在银屑病外周血单个核细胞(peripheral blood mononuclear cells, PBMCs)增殖中的作用.方法 PBMC标本取自33例寻常型银屑病患者和20名健康献血者,利用植物血
首先从节约货车装卸时间的角度论述了甩挂运输相对于普通运输的优越性,然后测算了不同吨位利用率下的燃油消耗量,论证了甩挂运输在提高货车吨位利用率方面所带来的效益;测算了货