基于增强语义和随机游走的分类算法研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:mygd520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,每时每刻都产生着大量有价值的数据,数据的自动分类已经成为研究热点之一。针对不同的数据和不同的需求,往往需要不同的处理方法。本文针对评论数据提出了基于增强语义的分类算法SeMep,针对多标签数据提出了基于随机游走的分类算法MLRW,主要工作包括以下三点:1.提出了基于增强语义的分类算法SeMep。以乐评数据为例,除了评论自身携带的文本信息,SeMep还通过分析与被评论音乐对象相关的语义音乐信息来增强乐评分类的预测精度。对于类别未知的评论,我们提出一种启发式算法,用于给出该评论属于不同类别的概率。同时,我们给出了一种通过度量分类器类别散度来有效合并多分类器输出结果的方法。此外,SeMep还包括了一个可选的基于规则的语义后处理过程,用于调整某些类别的预测概率。2.提出了基于随机游走的分类算法MLRW。MLRW将多标签数据映射成随机游走图,并在图上应用随机游走过程,其输出结果表征了标签未知数据与每个标签的相似性。MLRW同时提供了多标签分类和多标签排序问题的解决方案。作为多标签排序问题的解,MLRW在预测类别未知数据时,通过结合条件概率模型,给出该数据具有每个标签的概率分布;作为多标签分类问题的解,MLRW将原始的多标签问题转换为若干的二值分类问题,进而应用传统的单标签算法得到预测结果。3.基于Weka平台,本文设计并实现了SeMep和MLRW的原型系统并进行了详细的实验。针对SeMep的实验结果表明SeMep能够有效且高效的预测乐评属于每个类别的概率,基于分类散度的分类器组合方法能够达到比子分类器单独使用时更好的分类结果。我们在公开的文本、图像、视频和生物化学数据集上将MLRW和许多最新提出的多标签算法进行了细致的对比。实验结果表明,MLRW能够有效并且高效的解决多标签排序和分类问题,综合来看,MLRW的输出结果优于已有的多标签方法。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
儿童早期照料与教育是促进儿童早期发展、保证教育公平的重要途径。为了深入了解中国农村地区儿童早期照料与教育的提供和利用情况,本研究基于1991—2011年中国健康和营养调
<正>自1977年台湾"中坜事件"算起,台湾民粹主义的发展已走过近40个年头,与台湾的政治经济发展紧密交织在一起,见证了台湾的民主转型和民主巩固。2004年之后,随着台湾社会对于
为探索在当代中国和日本政府推行支持性生育政策的背景下,两国父母面临的育儿压力与获得的社会支持,本研究采取方便取样的方法,分别在中国和日本进行了问卷调查。问卷采用配
暑期有幸陪同父母游历成都,见识了巴山蜀水的钟灵毓秀,也感受了天府之国的舒适安闲,但这一行我印象最深的,还是参观都江堰水利工程时的震撼和思考。从成都驱车前往都江堰,还
在实际应用中,IEEE 802.15.4规范是低速率无线个人网络的标准,使用6LoWPAN为其网络协议,要求将内部的IPv6地址转换为外部IPv4地址,从而实现无线传感器网络的设计。为使家庭传
振动信号常被用来监测机械设备工作状态,其特征值选择会直接影响监测效果。以振动信号识别发动机故障为工程背景,为了快速有效地提高识别率,提出构建相关系数图并利用其选择
对于传统云环境大数据聚类中的量子进化方法的聚类精准度比较低的问题,为了降低存储开销,提高数据管理能力与调度能力,提出将优化粒子群算法作为基础的云环境大数据聚类算法,