内容文本分类中的语义特征提取算法研究

被引量 : 0次 | 上传用户:hbh0429
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
内容文本分类是根据给定文本的特征进行匹配,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。如何提取待分类数据中的语义特征是实现文本分类的关键技术。特征提取对于降低文本数据的处理维度,滤除数据噪声,提高分类准确率有着重要的意义。论文研究在不牺牲算法效率和精确度的前提下,如何对传统特征提取算法进行改进。在深入分析无监督特征提取主成分分析算法和监督的Fisher判别分析算法的特点的基础上,提出了从数据重构和数据识别的角度建立了特征提取中描述特征和判别特征两个优化思想;结合谱图理论,研究了黎曼流形上的拉普拉斯-贝尔特拉米算子的线性近似,构造了一个类似Fisher判别函数的非监督判别准则;在深入分析非监督判别判别准则的基础上,提出了在特征提取时着重考虑文本类别特征的稀疏性和文本数据特征间具有的相关性、同义性以及多义性的特点对分类语义信息的影响,采用数据降维后保留类别语义信息的原则,避免仅考虑文本语义信息重构造成的分类准确度降低的缺点;通过分析潜在语义索引特征提取算法的优点和不足,确定了从代数角度通过矩阵奇异值分解和广义特征值分解获取特征变换矩阵的方法,达到在不影响精准度的基础上减少特征提取的时间;通过深入研究经典线性判别算法在语义特征提取运用,结合文本分类自身的特点,明确了文本分类不同于线性判别算法的监督聚类,从而构造基于文本向量间的相似矩阵和密度矩阵以提供类别语义信息。基于以上工作原理和关键技术,本文设计了一种判别语义特征提取算法DSFE。采用国际通用语料数据集和web网页数据作为实验语料,对于所设计的算法进行了实验并对实验结果比较,使用准确率和归一化互信息评价算法,验证了DSFE算法在时间复杂度、分类准确性、抗噪声能力等方面都有较好的性能。
其他文献
基因工程不仅是生物工程专业和生命科学专业的主干课程,也是研究生命科学极为重要的工具。为了满足创新型人才培养的需要,在实际教学中,笔者结合传统教学方法,充分利用PBL教学法
web2.0是相对于互联网web1.0的一个新概念。它于2004年由美国Tim O′Reilly首次提出,很快成为近两年深刻影响互联网界的重要思潮。通过文献整理,本文较为系统地总结了目前国
目的探讨针药并用治疗抑郁症临床疗效。方法急性期应用针刺治疗抑郁症40例,对照组4O例应用针刺上述各穴旁开1寸处治疗,疗程均为4星期;缓解期治疗组应用自拟解郁饮中药,对照组
摄影作品作为一种典型的叙事作品越来越受到叙事理论的关注。所谓叙事“就是对一个或一个以上真实或虚构事件的叙述”。①摄影是用镜头来叙事,镜头是一双眼睛,它看见什么,看
<正>在数学学习中,如何寻求解题途径,是一个经常遇到的重要问题。解决一些比较复杂的问题,往往需要把已有的知识和方法采取分解、组合、交换、类比、限定、推广等手段进行思
新课程实施以来,基于三维教学目标的历史教学倍受提倡并逐步推广。历史教学中的情感教育也成为许多历史老师关注的问题。本文以《抗日战争》一课为例,从教学目标的落实、教学
企业债券与银行贷款是企业债务融资的主要方式,企业举债融入资金以后可能发生道德风险行为,损害债权人的利益,债权人的监督能够降低或消除企业的道德风险,银行比分散的债券投
为了研究西洞庭湖区的森林景观格局及其对灌木层植物多样性的影响,笔者根据西洞庭湖区森林分布,将景观分成12类,通过合并地理位置相邻的同类小班构成景观斑块,利用Shannon-Wi
近10年来我国电子工业发展很快,电子产品出口额增长幅度较大,其中尤以消费类电子产品发展最为迅速。那么今后我国将如何进一步扩大电子产品出口?《谈我国消费类电子产品出口
我在公交行业开车近20年,近几年一直在琢磨如何把车子开得更好,怎样使油耗更省。在工作中,我经常与陈文军等同行交流经验,相互学习。我感悟到:协调好脑、眼、手、脚,达到路、