文档相似度相关论文
本文提出了一种新的双语文档对齐算法,该算法用TEIDF方法进行文本特征采样和权重计算,使用统计翻译模型进行双语词汇对齐,用Dice方......
文档图像检索是图像检索研究领域的重要课题之一,也是近年来备受世界各国研究者关注的前沿方向.文档图像检索算法可以归为基于字符......
XML文档压缩处理是XML数据管理研究领域的一个热点问题,已有的研究工作均以XML文档为基本处理单元,而没有考虑因文档间存在相似性......
基于SAAS的在线服务数量曰益宠大,使得如何有效的查找特定的服务成为突出问题。目前普遍采用用户自定义的服务标签来标识服务,并通过......
作者分类是按照作者的写作风格将作品分类的过程。作者分类是文本分类的一种。风格特征集合的选择是作者分类的关键问题。 本文......
随着信息产业特别是互联网的高速发展,人们可以很容易得从互联网、数字图书馆以及公司内部网络获得海量的数据。这些数据按照其组织......
随着社会信息化进程的不断发展,人类对信息的需求和依赖程度越来越高,如何从海量信息资源中快速有效的获取有用信息,已经成为人们研究......
近几年来,随着社会信息化进程的不断深入发展,人类对信息的需求和依赖程度越来越高,如何从海量的信息资源中快速有效的获取有用的信息......
XML因其具有的半结构化、可扩展性和自描述性等特点,在互联网中得到广泛应用.海量的XML文档也带来数据搜索的困难.本文基于加权层......
随着互联网的高速发展,搜索引擎为用户获取各种信息提供方便,但随着数据量、信息量的大幅增长,存在着信息过载的问题,用户如何从海......
提出了一种基于加权层次结构的XML文档相似度算法.根据XML文档的层次结构信息,该算法能够快速的进行文档相似度的计算,并识别出具......
研究界关于相关反馈问题的研究已经有近30年的历史,相关反馈也被证明可以在很大程度上稳定地提升检索系统的性能。由于目前相关反馈......
本文提出了一种根据两段XML文档标记的语义信息计算相似程度的方法,设计并实现了计算两段XML文档相似程度的实验系统,实验结果表明该......
聚类是一个重要的基于统计的无监督信息处理工具,在很多应用领域起着基础的作用。其中,文档聚类是对文本文档进行聚类的方法,对于......
基于SaaS的在线服务数量日益宠大,使得如何有效的查找特定的服务成为突出问题.目前普遍采用用户自定义的服务标签来标识服务,并通......
为了弥补树编辑距离方法时间复杂度高和频繁路径方法丢失过多语义信息的不足,建立XML文档的双向路径约束模型,从而更全面地提取XML......
缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语......
文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型(Vector Spa......
生物信息学涉及生物、化学、物理、数学、计算机和互联网应用等多方面知识,要从事这个领域的研究工作,必须掌握更多的各方面知识.......
将查询结果根据内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传统......
针对现有的空间向量模型在进行文档表示时忽略词条之间的语义关系的不足,提出了一种新的基于关联规则的文档向量表示方法。在广义......
基于向量空间的文档相似度算法假设特征元素间关系为正交,当2篇文档采用了具有相近语义的不同术语描述时,该方法不能准确反映二者......
评价智能答疑系统优劣的重要指标是准确率和召回率。系统结合Q/A库和文档库搜索技术的优势实现,利用成熟的Q/A技术回答常见问题,保......
搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚......
将查询结果根据其内容进行聚类是提高搜索引擎服务质量的关键技术之一.搜索结果聚类时只能从文档标题和文档片段中抽取有限信息,传......
针对维吾尔语Web文档的有效检索问题,提出一种基于相关反馈和文档相似度的检索词加权方法.首先,对维吾尔语文档进行预处理,获得相......
将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个......
由于用户查询信息不足而导致传统向量空间模型检索结果不够准确,针对此问题,提出了一种基于文档关系改进的向量空间模型.改进模型......
论文提出了一种双语文档排序学习模型.排序是信息检索系统中重要的一个环节,学者们已经对单语言环境下的文档排序学习问题进行了很......
在传统检索模型的基础上,结合本体概念,提出一种基于领域本体的检索模型。该模型利用本体中语义概念关系及语义扩展机制对查询关键......
提出一种潜在文档相似模型(LDSM),把每对文档看作一个二分图,把文档的潜在主题看作二分图的顶点,用主题问的加权相似度为相应边赋权值,并......
为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
信息检索作为信息获取的手段,是信息处理的重要内容,是当前信息处理研究领域中的研究热点。信息检索主要包括三个方面的内容:信息需......
一、引言计算机程序抄袭检测系统是一款能够避免学术抄袭、造假等情况的计算机软件.虽然很多计算机程序被研发出来,但也出现了很多......
常用的文档相似度计算方法主要包括集合模型方法、向量空间模型方法、潜在语义分析法等,这些方法仅利用文本信息计算文档相似度。......
去除内容相同或相近的新闻是提高搜索引擎的关键技术之一。提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链......
MapReduce是Google开发的在超大集群下进行海量数据运算的一种分布式编程模式。Google利用MapReduce编程模式,其搜索业务取得了巨......
针对档案领域的短文本分类,设计一种基于概念网络的自动分类方法。通过分析领域内短文本的语言特点构建领域本体,利用自然语言处理......
随着计算机和互联网技术的发展,文本数据的数量大幅度地增长,但是这类数据对于计算机来说难于理解和使用,解决这一问题的途径之一......
随着互联网行业的快速发展、信息量增加,如何处理海量数据成为行业面临的一个严峻考验。一种处理海量数据的方法是对文档进行分类,......
学位
作业环节是整个教学过程中的一个重要的环节,作业环节信息化是教育信息化中重要的组成部分。作业环节的工作质量、效率和效益直接影......
随着网络信息技术的发展,网络远程辅助教学逐渐成为人们进行学习的一种有效方式。由于网络教学本身的一些制约,问答系统成为它的有......
检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该......