中文文本分类方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:liongliong570
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息技术日益发展、电子文本信息迅速膨胀的今天,文本分类作为组织和处理大量文本数据的关键技术,越来越受到人们的关注。本文研究了文本分类的相关技术,包括文本预处理技术、文本表示模型、特征选择方法、特征权重计算方法和常用的文本分类算法。在预处理阶段,为了解决传统中文文本分类在分词时引起的耗时、准确率不高等问题,去除分词所需的额外的词典信息,本文提出了一种新的文本预处理方法:使用Base64编码预处理中文文本,将其转化为英文字母和数字组成的字符串,然后使用N-gram产生特征项的方法。实验结果表明,这种方法无论在分类准确率、召回率、F1值还是时间消耗上,都比传统的基于中文分词器的文本分类方法更好。在文本表示阶段,使用目前广泛使用的向量空间模型来表示文本。同时研究了特征项在文本分类中的作用,对本文的N-gram特征和中文词特征进行了比较。通过实验对比,4-gram特征表示文本能够得到最好的分类性能。在将文本特征项集合转化为数值形式的特征向量时,对几种不同的权重计算方法进行了研究和比较。文本分类的一个重要环节就是对高维的特征空间进行降维,从而选择出最能代表文本的特征集合。因而在特征选择阶段,针对基于英文字符4-gram特征产生的高维空间,研究了不同的特征选择方法选择特征的有效性。在系统实现阶段,本文提出并实现了一个基于Base64编码的中文文本分类系统,该系统由预处理模块、特征选择模块和分类评估模块组成。通过在复旦大学语料库上进行分类实验,验证了本文预处理方法的有效性和可行性。
其他文献
本文对加强企业培训师师资资源建设的重要性进行了论述,分析了目前企业培训师资资源建设的现状及问题,并有针对性地提出了通过系统化开展培训师资管理,差异化及项目引导方式,
<正>在苏州博物馆吴塔国宝展区的北厅正中,陈列着一件举世瞩目的国宝级文物,也是苏州博物馆的明星文物——秘色瓷莲花碗(图一)。碗由碗体和盏托两部分组成,略塌斜。碗高8.9、
为了实现人与其周围世界和谐平衡关系的建立,劳伦斯从人类基本关系入手,在作品中不断寻求着男女性别角色的正确定位。两性之间的和谐依赖于个人内部的和谐,而内部和谐的理想
介绍了我国新一代天气雷达CINRAD/SA天线伺服系统轴角编码单元的主要功能以及逻辑电路结构,分析了旋变激磁信号发生器、旋转变压器、RDC模数变换模块、PLD可编程逻辑器等关键
《资本论》中的职业教育思想的核心要义,集中体现在马克思在大工业生产等层面上对职业教育形成原因的深刻分析;在资本主义制度和共产主义制度的视域下对职业教育发展命运的深
2012年6月对茂兰喀斯特2种森林湿地土壤动物群落进行了调查。结果共获得土壤动物6 909只,分别隶属于3门11纲31目,其中优势类群为真螨目、蜘蛛目、鞘翅目、膜翅目,占总捕获量
主要资本主义国家政治专题知识体系概说高中历史专题知识体系(七)●胡宏伟孙闻彬●政治是经济的反映,随着经济的发展,旧的政治状况就越来越不适应社会经济发展的需要,于是政治变化
<正>临床试验表明,降压能降低脑卒中风险,尤其是在高龄老人。生理功能和认知功能受损,又将影响老年人脑血管病的发生发展。然而既往关于生理功能和认知功能受损与高血压及脑
<正>自2003年下半年起,中央对电解铝实施宏观调控以来,中国电解铝工业发生了巨大变化。电解铝投资热一下降到了零,按生产经营成本分析,目前约78%的产能处于亏损状态,整个电解