基于维基百科的文本样本扩展方法及其应用研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:yu0426
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络时代的来临,大量的文本信息亟待处理,文本处理的研究越来越重要。目前,大多数文本处理方法都是基于机器学习的,在机器学习中,样本是影响学习效果的关键因素。然而,由于缺乏较为可靠的和高效的处理方法,难以对文本进行自动化的标记,因此导致了高质量的样本难以获取,代价极高。针对这一问题,本文提出了基于维基百科的文本样本扩展方法。该方法充分利用了维基百科数据的语义信息和结构化特点,通过对已标注样本数据和维基百科条目之间的相关度计算,结合条目之间的链接关系扩展样本,提高了样本扩展的效率和文本处理应用的性能。本文的主要工作和创新点如下:1)面向维基百科数据条目的语义特点,根据主题信息和文本度量语义相关度,提出了一种主题信息相关度算法TIC。2)根据维基百科数据条目之间的结构特点,量化维基百科中链接和语义之间的关系,提出了一种链接语义相关度算法LSC。3)根据上述两种相关度计算方法,提出了三种样本扩展的方法——基于主题的扩展WSE-T、基于链接的扩展WSE-L,以及基于主题和链接的扩展WSE-TL方法。4)将本文的三种样本扩展方法应用于文本分类和文本聚类应用上,并同半监督和监督的学习方法相比较。从扩展的数量、测试数据集、类别数量以及模型的角度实验和分析,结果表明本文的样本扩展方法有效地提升了文本处理的性能。
其他文献
通过竞争机构分布、专利相对指数、机构研发团队投入/产出、IPC分类等指标,对中国专利信息中心(CPIC)数据库中光伏发电产业相关专利申请与授权量进行统计分析。结果表明,近年来我
文化创意产业的艺术性和商业性经常发生冲突,致使该产业标准化和定制化之间的矛盾变得非常突出。因此,文化创意产业要面对许多二元性问题,这为模块化研究提供了一个兼具代表
目的了解老年糖尿病患者血压、血糖、血脂及用药情况,探讨老年T2DM慢性并发症的危险因素。方法回顾性分析我科住院的447例60岁以上T2DM患者(≥60岁T2DM组)的临床资料,将其与
目的:探讨对胸腔镜下进行肺大疱切除术患者实施围手术期优质护理的临床疗效。方法:收治行胸腔镜下肺大疱切除术患者46例,随机分为对照组和试验组。对照组给予常规护理,试验组
随着福建经济贸易的飞速发展,科学技术的日新月异,艺术文化领域也在不断进步不断提高。艺术已经开始走入福建人民的生活中,逐渐形成了一个不可缺少的话题。在福建艺术发展的
作为新型功能材料,半导体照明材料技术发展迅猛并已成为材料科学发展的引领方向和热点前沿之一。基于ISI WoK Derwent专利数据库(DⅡ),利用TDA、Aureka等分析工具对2000~2008
<正>成语有"不登大雅之堂",意思是进不了文雅高贵的场所,喻粗俗不文雅。形容某些不被人看重的、"粗俗"的事物(多指文艺作品)。成语中的"大雅之堂",是否确有所在呢?大雅,是《
期刊
1958年以前脆弱双核阿米巴感染国内仅发现数例。原因是在新鲜粪便盐水直接涂片中,本虫极易与白细胞混淆,且对低温敏感,在4℃1小时,原虫量减少44%。检查方法和鉴别能力提高后,
介绍了 ZDF 2 5 - 45气动波纹管阀门 ,该阀具有价格低廉、运行高效等特点 ,可以替代进口阀门 ,广泛应用于高纯、超纯、超高纯气体生产、净化、输送等领域。
回顾性分析我院1998~2005年收治的肾囊肿患者的临床资料,对肾囊肿的三种治疗方法进行比较.并讨论肾囊肿的最佳治疗方案,方法如下。