无标记训练样本的Web文本分类方法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:djjsl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本分类中获得有类别标记训练样本的代价是很高昂的,本文针对这个问题对传统的模糊聚类方法进行改进,提出模糊划分聚类方法FPCM,将聚类的无监督性和样本的先验知识结合起来,通过相似度度量聚类相关文本,取得比较客观的簇和少量标记文本,为监督学习找到分类依据,并结合朴素贝叶斯增量学习方式进行分类器的学习.本文进一步用估计分类误差损失的方法平衡选取候选样本,提高了分类准确率,实现了应用范围更加广泛的无标记文本分类学习模型.
其他文献
期刊
随着牙科技术的进步,使越来越多的牙病患者倾向于保留自己的牙齿,成为牙科医生面临的挑战,本文通过对口腔门诊54例折裂牙病例的临床观察分析,目的在于观察折裂牙保存治疗的效果。
目的:探讨卒中后癫痫的相关因素.方法:对40例卒中后癫痫患者的年龄、性别、卒中类型、部位及病灶进行分析.结果:癫痫发生率为9.4%.年龄、性别及卒中类型与卒中后癫痫无明显关
针对目前聚类算法没有充分地利用输入知识,不便于知识的学习和增长的情形,提出在高维数据集的情况下,恰当地利用输入知识可以更准确有效地发现聚类,提出聚类的相关维集的概念,分析
白内障的手术方法进步极快,超声乳化人工晶状体植入术因切口小,术后散光少,裸眼视力恢复快等优点,已成为目前国内外公认并广泛采用的首选术式.但由于超声乳化仪设备昂贵,尚不
糖尿病周围神经病变是糖尿病最常见的并发症之一,其发病率高达90%以上[1],其中主诉疼痛者即痛性神经病变占10%~32%[2].
近年来,我院透析室始终以提高血液透析质量和对病人的护理水平为目标,在临床实践中积极进行了各种有益的尝试和探索,积累了一些成功的透析经验。根据近几年129例血液透析病人的
针对层次化移动管理中的路径优化问题,提出了基于路径长度、流量资源、转发节点负载、承载协议、应用类型、用户偏好等因素的最优路径选择方法;使用最优路径选择方法,提出了基于
使用朴素的贝叶斯(NB)分类模型对邮件进行分类,是目前基于内容的垃圾邮件过滤方法的研究热点。朴素的贝叶斯在参数之间联系不强的时候分类效果简单而有效。但是朴素的贝叶斯分类
本文研究了分簇CDMA无线移动Ad Hoc网络的簇间吞吐量性能的上界。在分簇无重叠的情况下,网络的簇问吞吐量性能的上界为Θ(n^1/2);若在分簇有部分重叠的情况下,其网络吞吐量的上界