文档表示相关论文
随着社会现代化信息技术的快速发展,网络信息资源飞速增加,大量的信息资源蕴含着丰富的状态信息,预示着社会、事件及环境可能的状......
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示......
文档表示(Document Representation)是对文档的主题内容进行揭示、描述的结果,根据文档的内容得到其文档表示是对文档进行自动分类的......
许多自然语言应用需要将输入的文本表示成一个固定长度的向量,现有的技术如词嵌入(Word Embeddings)和文档表示(Document Representat......
互联网发展至今,搜索引擎在人们生活中扮演着不可或缺的角色,网页搜索排序对于搜索引擎至关重要。优化网页排序,可以使用户节约大......
文档复制检测是保护知识产权、提高信息检索效率的有效手段。提出一种基于指纹和语义特征的文档复制检测方法。介绍了指纹提取算法......
随着web3.0时代和“互联网+”的迅猛发展,全球互联网用户的数量持续增长。联合国2018年12月最新公布的数据显示,全球互联网用户数......
近年来,搜索引擎在人们的日常生活中扮演着非常重要的角色,人们依赖搜索引擎来检索各种各样的信息。网页搜索排序是搜索引擎的一个......
基于变分自编码器的神经主题模型是一种典型的主题模型。由于该模型忽略了文档之间的相似性,可能导致语义相近的文档对应的隐变量......
传统文本分类中的文档表示方法一般基于全文本(Bag—Of—words)的分析,由于忽略了领域相关的语义特征,无法很好地应用于面向特定领域的......
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清......
为解决现有文档表示方法中不包含结构特征以及难以融入外部知识的问题,提出基于三元组的文档表示方法,并结合分布式向量语义表示。......
文档表示模型可以将非结构化的文本数据转化为结构化数据,是多种自然语言处理任务的基础,而目前基于词的模型在文档表示任务中有着......