基于概念语义相关性和LDA的文本标记算法

来源 :华南师范大学学报(自然科学版) | 被引量 : 0次 | 上传用户:net130130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记.该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记.为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验.为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-News Group)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验.实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率.
其他文献
医院是知识和科技密集型单位,尤其是大型综合型医院,人才的地位和作用尤为突出,加速人才培养是医院建设和发展的基础工程。在医院人才被视为重要的战略资源,因此,围绕这个“重要的
目的:研究非瓣膜性房颤(简称房颤)患者血中纤维化指标的水平及意义。方法:对非瓣膜性房颤患者70例和对照组70例进行实验室检查,并对结果进行分析。结果:和窦性心律组相比,房颤患者
选择具有设计结构的固化剂和活性稀释剂,并研究其对体系性能的影响,确定了室温固化耐高温低黏度双酚F环氧树脂配方体系。该体系黏度低,凝胶时间较长,耐热性良好,力学性能优异。固
目的:探讨复发转移性乳腺癌的治疗效果。方法:40例复发转移性乳腺癌应用希罗达每天计划剂量2500mg/m^2,分早晚2次饭后半小时吞服,连续服用2周,休息1周为一个周期,原则上服药至病情进
目的:探讨一氧化氮(NO)对大鼠睾丸生殖细胞凋亡的影响。方法 采用MTT法观察NO对细胞增殖的抑制作用,透射电镜分析细胞结构变化,末端脱氧核苷酸转移酶(TdT)介导的原位末端标记法(TUNEL
美国的Cotronics Corp.公司开发出一种用于电子封装料和粘接剂的新型环氧树脂体系Duralco 4538耐热达232℃,而且柔性优异,完全可以打结。其可制成伸长率达800%的产品。在灌封及粘
目的:减少压疮高危患者发生难免压疮的机率。方法:对照组运用常规的防治压疮方法护理压疮高危患者,实验组采用在常规方法的基础上在皮肤受压部位垫水垫床及纯棉大浴巾进行防压疮
文章就传统中国画的特点作了较细的剖析,把历史上有关中国画的一些评价标准了一般性的叙述,并将自己的观点溶汇于全文中。
智能交通是当前交通管理发展的主要方向,而车牌自动识别系统则是智能交通的核心。为了提高车牌自动识别系统的性能,设计了一种在复杂环境下具备较强鲁棒性的车牌识别流程,并
目的:探讨皮肤瘢痕组织中PTEN、Caspase-3、Survivin基因表达的临床意义。方法:用原位杂交方法对35例皮肤瘢痕组织、15例正常皮肤组织的石蜡包埋标本进行PTENmRNA、Caspase-3mR