关于词频倒排文档频公式的修正

来源 :中国农业大学 | 被引量 : 0次 | 上传用户：goodcat13579

【摘要】

：

向量空间模型(VSM)是文本信息处理的经典模型，它把文本用向量表示，以特征项的权值作为分量，这个架构很大程度上提高了信息处理的性能。模型中广泛用到的计算特征项权值的公式是

【作者】

：

栾锋

【机构】

：

中国农业大学

【出处】

：

中国农业大学

【发表日期】

：

2006年期

【关键词】

：

向量空间模型词频倒排文档频 VSM TFIDF 文本信息处理中文文本聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

向量空间模型(VSM)是文本信息处理的经典模型，它把文本用向量表示，以特征项的权值作为分量，这个架构很大程度上提高了信息处理的性能。模型中广泛用到的计算特征项权值的公式是标准化的词频倒排文档频(TFIDF)公式。研究发现，向量空间模型并不是一个完善的模型，其最大的缺陷是假设特征项之间是相互独立的。这使得用向量空间模型表示文本集时，很可能造成信息遗漏或冗余。此外TFIDF公式同样不够准确，它简单地认为特征项权值与包含该特征项的文档数成反比，而没有考虑特征项分布的比例情况。本文使用中文信息处理工具从中文文本集中抽取词条，并通过知网系统把词条空间映射到概念空间。用概念代替词条作为特征项的方法间接达到了降维目的，并在很大程度上消除了向量空间模型特征项之间的相关性。文本的一个主要研究内容是对TFIDF公式进行修正。基于分布比例高的特征项具有较高的贡献度和特征项在文本集中分布越离散则代表性越强这两方面的考虑，本文构造了一个平衡因子BF，并将其加权到TFIDF公式中，得到了修正后的公式M-TFIDF。简单数值例子和中文文本聚类实验都表明，M-TFIDF公式保留了TFIDF公式的优点并弥补了其缺陷，提高了向量空间模型对文本集的表示性能。

其他文献

国土资源部关于印发《矿产资源节约与综合利用专项工作管理办法》的通知

国土资发〔2010〕122号中央有关部门,有关中央企业,各省、自治区、直辖市国土资源厅(国土环境资源厅、国土资源局、国土资源和房屋管理局、规划和国土资源管理局),部机关有关

期刊

工作管理办法资源节约国土资源矿山企业国土环境资源矿山储量开采回采率采矿权人紧缺矿产资源低品位矿

基于多小波的密度估计及其应用研究

统计学中的一个重要问题就是概率密度估计，不管是在理论研究方面还是实际应用方面，概率密度估计对于解决统计学中的大部分问题都有非常重要的帮助。过去用于密度估计的方法主要

学位

多小波密度估计收敛阶统计学

干部制度改革期待三大突破

梁妍慧在《半月谈》第10期上撰文指出,最近,党中央颁布了干部人事制度改革的五个法规性文件, 落实它应在三个方面有所突破：思想观念突破：由“伯乐选马”转向“赛场选马”深化干

期刊

干部制度改革《半月谈》法规性文件群众拥护干部任用公推公选党管干部选拔过程解放思想干部选任

Q0-1规划模型下最大团、最大加权独立集问题的研究

图中的最大团问题与最大独立集问题均属于图论中经典的NP-完全问题，该类问题所具有的固有困难，已使其普遍有效算法的寻求变得希望渺茫。但由于该类问题深刻而广泛的理论及应用

学位

最大团最大加权独立集Q0-1规划分支定界法

奇异摄动问题的自适应方法

自适应网格方法是一种用来解决微分方程近似解的重要计算方法，把他应用在边界层和内层问题的近似解上是非常有效的，这里我们研究的是自适应重分布网格方法即移动网格法。本

学位

微分方程导数误差奇异摄动有限元法自适应网格

广东省供销合作社组织参展第二届广东现代农业博览会

2008年11月21日到24日,由广东省人民政府主办,广东省农业厅、佛山市人民政府承办的第二届广东现代农业博览会暨名优新农产品展销会在佛山市陈村花卉世界隆重召开。本届农博会

期刊

农业博览会陈村花卉世界名优新综合展汪洋书记合作联社省直有关单位李容根黄华名优企业

浅谈素质教育与学校体育教学的发展方向

体育教学是提升学生身体素养,帮助学生建立终身锻炼意识的基础学科.在素质教育的大力推广之下,作为新时代的体育教学人员,需要注重自身素质的提升与教学方法的改进,为培养适

期刊

素质教育体育教学应用实践

一类上层供应商主导的两层供应链协调问题

本课题研究来源于国家自然科学基金项目(70471045)：一类上层供应商主导的两层供应链协调问题的研究。供应链管理的重要内容之一是协调供应链中的各个组成部分，因为供应链是

学位

供应链管理上层供应商合作协调模型效益分配价格折扣

培养学生空间观念例谈

“空间观念”是数学学习的核心概念之一。《标准(2011版)》从四个方面对空间观念进行描述:空间观念指根据物体特征抽象出几何图形,根据几何图形想象出所描述的实际物体;想象

期刊

培养学生空间观念几何图形描述小学数学教学物体空间想象力知识教学位置关系特征抽象数学学习运动语言基础概念方位标准

语文课堂回归语文本色

语文教师要想讲授一堂好课,一定要能够提出真的问题、运用真的教学模式、使用真的教学语言,所讲内容要深浅适度,这要教学效果才会理想,学生才会学有所获.

期刊

语文课堂真与假深与浅

关于词频倒排文档频公式的修正

与本文相关的学术论文