特定领域半监督文本分类系统的设计与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:jingkaiqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这是一个科学飞速发展的时代,借助计算机等工具以及人类历史上长期的知识积累,各个学科的信息越来越深入和系统,人们迫切需要将这些特定领域的知识进行系统化的分析和归类从而为以后更深入的研究做好准备,于是特定领域内的文本分类成为当前研究的一大热点。 目前,特定领域文本分类主要是在传统文本分类的基础上,利用已有的特定领域知识库对文档进行特征选择,用特定领域内的知识来表示文档。这样就带来一个问题,如何寻找合适的知识库来尽量准确地表示文本;对于新兴的学科而言,在尚未形成任何系统化的知识库的时候,又如何进行分类?因此,理想的特定领域文本分类方法是能够不借助于任何的领域知识而能够很好的进行分类。同时,在一般的应用中,由于对训练文档进行标注需要耗费大量的人力,所以通常在分类任务的训练集合中所给出的正例和负例的数目都是非常有限的,并且通常标注的正例和负例的文档数目分布也相当的不均衡,大多数情况下训练集合中都只标注出了少量的正例文本。如何从少量的已标注训练样例中获得足够的类别信息以辅助分类也是目前研究文本分类的一个难点。 本文综述了现有特定领域文本分类系统的现状,详细介绍了在特定领域内,对于训练集中正负例分布不均衡,且其中包含有大量未标注数据的半监督文本分类问题,提出了一种基于紧密度衡量的分类方法。本文讨论了特定领域半监督文本分类系统的设计与实现细节,并实现了一个用于该类分类问题的系统。本文的工作主要包括: ●本文综述了现有特定领域文本分类的研究现状,指出了现有方法由于需要依赖于领域相关本体而带来的局限性。 ●本文详细分析了半监督文本分类问题的研究现状,给出了几种传统的用于半监督文本分类问题的算法并指出了这些算法的局限性。 ●提出了一种基于紧密度衡量算法来解决此类的文本分类问题,将通过实验将该算法与其他传统的基于特定领域内文本分类的方法作了详细地比较与分析。 ●设计和实现了一个用于特定领域内半监督文本分类问题的系统,并在TREC’05的基因任务数据集上进行了实验,与TREC’05基因任务的其他组结果相比,总体的分类效果都有不同程度的提高,显示了这种算法的优越性和适用性。
其他文献
本文对XML文件树状路径查询处理进行了研究。文章将用户输入的XQuery转化为查询树的数据结构,并将其查询语句中的文本值限定和结构限定都记录在此结构中。由于DTD中记录了XML
随着信息社会的发展,网络互连的规模越来越大,连网设备越来越多样,解决异构网络设备的互连问题,开发出符合网络管理标准的设备已经成为众多设备生产厂商的迫切需求。网络设备
门限秘密分享方案是保护秘密的重要手段,在密钥管理、多方安全计算等领域有着重要的应用,而最初的Shamir门限方案并未关注秘密分片的可验证性,这削弱了方案本身的健壮性。近些年
近年来由于计算机技术和电子商务的高速发展,企业可获取的信息数量和类型有了极大的增长。在企业应用和Web数据集成的需要下,Web环境下的数据集成系统的研究己成蓬勃发展的趋
运动模糊图像的复原问题是图像恢复技术当中最重要的课题之一。运动模糊在日常生活当中极其常见,比如日常生活当中拍摄移动状态的物体、交通摄像头拍摄运动状态中的目标车辆以
乳腺癌是严重危害女性身心健康的常见恶性肿瘤,是世界各国女性死亡的主要原因之一。由于乳腺癌的病发机理还未完全弄清楚,因此早发现、早诊断及早治疗对防治乳腺癌十分重要。目
证据理论是处理由认识的局限性所带来的不确定性问题的有力工具,它处理的证据来源于专家,但专家的知识经验往往是有限的,获取也较困难,且可能存在一定的主观性。粗糙集理论反映了
随着网络技术的发展,网络上电子可读文本的日益增加,呈指数膨胀的文本信息资源,使得如何准确有效地获取用户所需要的信息成为人们关注的热点,促进了文本处理领域的形成和发展。自
构件检索就是从构件库中检索出满足用户要求或接近用户要求的构件。随着构件库的不断增加,多构件库联合检索技术日益得到重视,成为构件检索新的发展方向。由于各个构件库分布
移动Ad Hoc网络中各节点可以自由移动、快速建网,形成与传统网络并行的独立网络,该网络具有了一些不同于传统网络的新特点,而这些特点使整个网络的管理面临了新的问题。本文来源