【摘 要】
:
基于向量空间模型的分类方法是目前各种分类方法广泛使用的文档结构表示方法,在对基于向量空间模型的分类方法的研究发现,基于向量空间模型的分类方法存在不合理之处,即特征值之间的“鸿沟”,这种鸿沟会导致向量空间模型中两点之间的距离的计算出现偏差,本文介绍了一种使用虚点的方法,这种方法消除了特征值之间的鸿沟,使得分类的效果得到了提高。该方法是通过重新定义特征权重,调整向量空间模型中点的特征值,即相当于重新定
【机 构】
:
中国科学院计算技术研究所,北京,10080;中国科学院研究生院,北京,100190 中国科学院计算
论文部分内容阅读
基于向量空间模型的分类方法是目前各种分类方法广泛使用的文档结构表示方法,在对基于向量空间模型的分类方法的研究发现,基于向量空间模型的分类方法存在不合理之处,即特征值之间的“鸿沟”,这种鸿沟会导致向量空间模型中两点之间的距离的计算出现偏差,本文介绍了一种使用虚点的方法,这种方法消除了特征值之间的鸿沟,使得分类的效果得到了提高。该方法是通过重新定义特征权重,调整向量空间模型中点的特征值,即相当于重新定义向量空间中的点,这样的点是相对于原来向量空间模型中的点的矫正映射,即就好像是虚拟点一样,最后问题归结为计算向量空间模型中的点与虚拟点的映射函数。理论分析表明虚点方法能提高基于向量空间模型的分类方法的效果,在SVM中运用虚点方法的实验结果表明,运用虚点方法的SVM的精确度得到了提高,这种结果验证了本文提出的虚点方法的有效性。
其他文献
由于传统的相似性度量计算方法在数据聚类、特别是高维数据聚类过程中存在的问题,基于数据重力的相似度计算方法被引入聚类过程。针对此类方法在表达类间相似关系方面存在的不足,本文提出一种新的基于语义引力及密度分布的聚类算法。一方面,将物理学中的质量和引力等概念引入到聚类分析中,将语义引力作为数据间相似性的度量方法,不但充分考虑了数据间的几何距离可分性,而且强调了数据间属性的相关性,使其对不规则分布的样本也
本文在分析术语特点的基础上,提出了一种基于统计和规则相结合的汉语术语语义分析方法。首先以词,词性,距离信息,上下文信息,词语在知网中的第一义原信息为特征,基于该特征训练得到支持向量机(SVM)依存分析模型,从而有效识别出了术语内部的依存关系;在依存分析基础上利用统计和规则相结合的方法进行术语语义分析。实验结果表明该方法的有效性,在大类语义关系和小类语义关系上正确率分别达到77.13%和69.05%
统计主题模型是近年来在文本信息处理领域发展起来的重要方法,由于模型结构的复杂性以及所需处理数据的巨大规模,所以迫切需求该类模型的高效求解算法。本文针对隐含主题模型LDA,研究了其变分求解算法的并行化方法。首先,提出一种新的动态负载均衡方法,相对于已有的基于静态负载均衡方法,性能有了显著的提高,并且对数据排序的影响表现稳定;同时,通过对统计量汇总过程的优化,克服了模型空间随并行线程数量线性增长的弊端
建立了面向观点挖掘的汽车本体知识库,可为挖掘汽车整体信息和特性信息观点提供强大的数据资源。本文以汽车领域知识为背景,根据汽车知识的关系,构建了汽车本体知识库的概念关系。在此基础上,利用Web 汽车评论真实语料库,自动获取了本体知识库中的核心概念。最后,采用OWL描述语言,构建了面向观点挖掘的本体知识库。
由于Web数据库具有自治性和异构性的特点,造成了各查询接口在内容、形式以及查询能力上都不尽相同,使得用户的查询请求受限于其给定的查询接口的表达能力,这给查询转换的准确性带来了更大的挑战。因此,对Deep Web查询转换进行研究,利用领域本体获取Deep Web入口表单与集成查询接口表单谓词的映射关系,分析查询重写产生约束映射规则,使得用户提交的查询条件转换成与各个Deep Web数据库查询接口相适
现有的论文标题译文通常由统计机器翻译或者通过辅助翻译得到,这两种方法对于标题的译文获取有明显的不足。本文在分析了汉语标题的特点及WEB译文获取技术后,提出了一种基于WEB检索的论文标题译文获取方法。实验表明,通过该方法获取的论文标题译文能够达到与Google在线翻译相同的质量。
在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种有效的降维方法。投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低维子空间上,从而实现在低维空间上研究分析高维数据的目的。传统投影寻踪技术计算复杂、编程实现困难,其本质问题是投影方向不易确定,且当投影方向包含的指标较多时计算尤为不易。本文提出一种
Deep Web入口发现是Deep Web数据集成的关键问题之一,本文应用主题爬行技术和本体技术,构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC),实现特定领域Deep Web入口表单的自动发现。网页分类器在爬行过程中,借助主题爬行技术和本体技术进行领域内网页主题爬行;表单结构分类器对领域相关网页进行解析,并应用决策树算法判断其网页中是否存在查询接口表单,去除非搜索表单
查询扩展是信息检索中的一项重要技术。传统的局部分析查询扩展方法利用伪相关文档作为候选词集合,然而部分伪相关文档并不具有很高的相关性。本文利用真实的搜索引擎查询日志,建立了查询点击图,经过多次图结构的转化得到能够反映词之间关联程度的词项关系图,并在图结构的相似度算法SimRank的基础上,提出了一种基于权重标准化的改进SimRank 方法,该方法利用词项关系图中词项的全局和间接关系,能够有效挖掘与原
针对问句分类过程中词袋方式特征选取所面临的数据稀疏以及特征空间维数过高的问题,提出了一种结合词语相关性与流形学习的分类方法,该方法通过统计选取训练语料库中高频词作为分类特征,以词汇语义相似度方法构建问句特征空间特征值,通过流行学习中的局部线性嵌入算法对特征空间进行非线性降维,从而获得问句分类特征向量,并采用支持向量机算法训练分类器。在旅游领域2万多问句上进行了问句分类实验,结果表明提出的方法取得了