中文文档相关论文
近年来随着Internet的普及以及互联网用户的不断增多,人们更趋向于利用这个传播渠道去发布和交换信息。数字图书馆和远程学习随着......
我们提出了一种基于n-gram的大规模中文文档自动聚类方法.该方法将自动聚类首次引入中文文档语义信息组织中,绕开了切词、语法分析......
本文研究的重点是中文多文档自动文摘中的几个重要问题:主题的自动提取、文摘句的选取、系统的自动评价.具体地讲,本文从如下几个......
文本分类是指分析文本内容并按一定的策略把文本归入一个或多个合适的类别的应用技术。随着Internet的出现,大量的文字信息开始以......
外包数据库模式下,文档数据存放在不可信远程数据库服务器端,由于文档数据的敏感性,需要对明文文档数据加密,但加密后的数据失去了......
随着科技水平的进步及互联网的不断深入发展,互联网上各种各样的信息堆积如山,并且每天以惊人的速度快速增长。此背景下,如何快速便捷......
本文提出了一种非受限无词典抽词模型,该模型通过自增长算法获取中文文档中的汉字结合模式,并引入支持度、置信度等概念来筛选词条......
由于中文信息处理的复杂性和特殊性,中文搜索引擎技术需要不断改进,中文搜索引擎不能直接照搬国外技术,研究和分析中文的专业知识,......
文本复制检测是这样一种行为:它判断一个文档的内容是否抄袭、剽窃或者复制于另外一个或者多个文档。文档复制检测领域的算法有很多......
区别于传统基于图像和西文文档的公式定位方法,针对中文电子文档的特点,提出一种基于机器学习和规则相结合的独立公式和内嵌公式的......
为了提高信息查询的效率,本文将自适应谐振神经网络引入中文文档搜索分类之中。在讨论自适应谐振神经网络基本原理的基础上,提出一种......
最近,公司安排我做一个礼仪教育方面的报告。我通过百度文档搜索页面(http://file.baidu.com),输入关键词"礼仪教育",选择文档类型为Wor......
为了从中英文混排的中文文档中定位数学公式,提出了一种基于中文字符识别和公式符号识别的数学公式定位方法。该方法主要由中文字......
针对切碎中文文档的自动拼接复原中无法利用碎纸片形状特征的问题,提出一种基于内容信息丰富度的拼接算法.首先分析了基于汉字内容的......
信息抽取(Information Extraction)的核心在于识别和提取文档中用户感兴趣的数据,并以更为结构化、语义更为清晰的形式表示,为用户......