文本分类中若干问题研究

被引量 : 0次 | 上传用户:zzqeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类作为处理和组织大量文本数据的关键技术,可在较大程度上解决信息杂乱问题,对于信息的高效管理和有效利用都具有极其现实的意义,并已成为数据挖掘领域中一个重要的研究方向。本文在分析和总结文本分类中文本表示模型、文本预处理、特征选择、特征加权、分类方法和分类性能评价的基础上,对特征选择、特征加权和分类方法进行了深入研究。本文的主要研究工作如下:(1)针对文本分类中高维特征空间和特征冗余问题,提出一种基于最大边缘相关的特征选择方法。该方法根据χ~2统计量和最大边缘相关相结合的公式为文本分类进行特征选择,在减少冗余特征的同时,降低了特征空间维数,显著提高了文本分类的性能。(2)针对文本分类中的特征加权问题,提出一种基于特征重要度的特征加权方法。该方法将特征对分类的决策信息引入到特征权重中,能更加客观地反映特征对分类的重要程度,有效改善样本的空间分布状态,使同类样本更加紧凑,异类样本更加松散,简化从样本到类别的映射关系,显著提高了文本分类的性能。(3)针对文本分类中的规则抽取问题,提出一种基于多种群协同优化的文本分类规则抽取方法。该方法利用信息熵生成初始种群,采用多种群协同优化方法演化当前种群。基于信息熵的种群初始化方法根据特征的平均信息量确定将特征插入到当前规则中的概率,能有效减少规则抽取所用时间;多种群协同优化方法通过各种群之间的相互竞争和良种共享机制提高优化方法的效率,显著提高了文本分类的性能。
其他文献
当代女性文学中女性意识的鲜明表达,首先是从北京女作家开始的。阳刚的京城文化成就了她们的大气,也滋养了她们的女权意识。张洁、徐坤、叶广芩、凌力、陈染等风格迥异的女性
实行标准化工时测定,要选择合适的测时对象,按照工艺规程中的工序开展测时工作,其过程中要注意观察、记录操作者的操作过程与动作,要记录工作环境、操作者劳动态度、工作效率
目前国内猪场排放的大量废水都没有经过有效的回收利用或处理即直接排放,对环境产生了严重的污染。针对猪场废水具高有机物浓度、高悬浮物、高氨氮等特点,目前控制猪场废水污
<正>日本纯氢公司对不锈钢管安装施工的作法是:酸洗→碱洗(中和残余酸)→高压水冲洗→酒精或甲醇清洗→经过滤的高纯氮气吹除、干燥→管道两端用尼龙或橡胶盖封闭。日本包建
铁路运输业对我国社会主建设和市场经济的发展起着至关重要的作用,是我国国民经济大动脉,长期以来我国铁路运输业以“铁老大”自居。随着我国改革开放和市场经济的进一步发展
<正>加强企业领导班子和干部队伍建设是贯彻落实科学发展观的关键,也是搞好国有企业领导班子建设发展的关键所在。大量的事实证明,有了好的领导班子,党和国家的方针政策才能
高等院校是实施科教兴国战略和人才强国战略的前沿阵地。实施科教兴国战略和人才强国战略必须要创新人才工作机制,深化人事制度改革,健全以品德、能力和业绩为重点的人才评价
<正>文化冲突是企业并购失败的重要原因。这种冲突产生于企业本身特性和环境等的差异。企业间的文化冲突有其独特性,体制冲突占据了更多的内容,企业文化整合中存在的问题既有
miRNA是长度约19~25个核苷酸的内源性具有调控功能的非编码单链小RNA分子,可通过识别靶基因的裂解位点,并在转录后水平对靶基因进行裂解,从而对靶基因起负调控,以控制蛋白编
研究目的通过供精者的与非供精者的对照研究,发现浙江省人类精子库的供精者招募工作的不足,从而为供精者招募工作更好的开展提供依据;通过观察浙江省人类精子库的管理体系,发