基于序列模式的文本分类方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:ylfxg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的迅速发展和日益普及,造成电子文本信息的急速累积,且这些海量原始文本信息甚为冗杂。而文本自动分类作为处理和组织大规模电子文本数据的关键技术,可以在一定程度上降低信息冗杂程度,帮助我们高效管理巨量电子文本信息。因此,文本自动分类是一项极具应用前景和实用价值的关键技术,关于它的研究一直为人们所广泛关注,且已经取得了长足的进展。本文在对国内外学者关于文本分类研究的分析比较后发现,目前绝大多数分类方法都只是关注不同领域的文章的用词、措辞特点,考虑了词与类别之间的关联性,却忽略了文章中词顺序、词搭配等特征信息,而这些信息往往更能帮助提升文本分类效率。因此,针对现有文本分类方法存在的局限,本文将序列模式挖掘算法引入文本分类领域,构建了基于序列模式的文本分类方法CBSP。该方法能够在考虑不同应用领域作文用词、措辞特点的基础上,再充分挖掘句法顺序等特征,发掘更多有效信息,从而强化文本分类效果。通过实验比较,发现这个新方法对于教育、信息技术、军事、招聘和体育等五个类别文本的分类效果要明显好于朴素贝叶斯、k-近邻、支持向量机等传统分类方法的分类效果;并且在不同数量训练样本条件下,新方法均能保持良好的综合分类性能。
其他文献
在当今知识经济时代,创新驱动型经济增长方式已成为提升国家竞争力的必经之路,技术创新则成为竞争力的重要源泉和手段。中国经济正处于转型阶段,由要素投入为主导向创新驱动
抽水蓄能电站作为当前电网最有效的调节器,其运行机组水泵水轮机要求具备更高的稳定性与灵活性,但当前机组存在的水轮机模式的“S”特性区与水泵模式的驼峰区两大不稳定区域
目前,在工业化发展中过度使用化石燃料使得人类面临环境(CO2排放量过多)和能源(不可再生能源缺乏)两大危机。而电化学技术在解决这两大危机方面具有非凡的潜力。一方面通过电化学
伴随着我国高等教育的发展和高校收入渠道的多元化,为了进一步提升高等学府的整体水平,许多高校实施了绩效工资制度。但是由于制度本身的缺陷、运行的多方阻力以及高校人群的
证券错误交易是指在证券市场中因市场参与者行为或交易系统故障所造成的、在价格或其他交易要素上表现出明显错误、与交易主体的交易意图不符,并对证券交易价格形成机制有不
目的:构建鲍曼不动杆菌纤连蛋白结合蛋白Omp33-36、Ton B抗原B细胞表位和T细胞表位,检测相应细胞表位的免疫效果,为制备单克隆抗体和研制鲍曼不动杆菌亚单位疫苗奠定基础。方
公用房是高等学校立身之本和发展之源,在高等学校教学科研蓬勃发展,规模迅速扩张的今天,公用房的保障作用更为显现。高校的办学效益提高,可持续和跨越式发展的实现无不以公用
“社会弱势群体”是指在社会人群构成中难以依靠自己的能力保持个人或家庭最基本的生活,为了维持生计仍需依赖国家和社会给予支持和帮助的社会群体。弱势群体人员在全国范围
目的探讨维持性血液透析(MHD)患者血脂联素(ADPN)改变及与心脑血管事件的关联。方法MHD患者178例,正常对照组30例,分别测定血常规、肝肾功能、电解质、空腹血糖、CRP、PTH及
让计算机具备情感语音交流能力一直是人机交互领域的研究难点和热点。在人类交流的过程中,语音信号既含有丰富的文本信息,也包括了说话人的情感特征。为了获得更富有情感的机器语音,针对机器合成的语音信号进行情感转换研究显得尤为重要。情感语音转换是一种研究将中性音转换为带有某类情感语音的技术,广泛使用于情感识别、医疗、军事等领域。本文主要针对情感语音转换中的特征和转换模型进行研究,主要的研究内容如下:首先,提