文本特征提取相关论文
针对现有的新闻文本情感分析任务中,单一模型提取文本特征的片面性,且无法充分提取新闻文本语义等特征问题,提出一种基于门控单元特征......
由于互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(简称为ATT)。该方法引入Albert......
在当今大数据时代的环境背景下,规模庞大的互联网数据信息无法得到有效的利用,“信息过载”日益加重。使用推荐系统可以有效地为用......
随着信息技术的发展和各类服务型APP的流行,评论文本的数量也呈现出了快速增长的趋势,这些评论文本中蕴藏着重要的信息和潜在的价......
互联网时代,在线评论逐渐成为人们交流、分享的主要方式,同时也是了解信息的主要渠道之一。互联网的高效性和便捷性,极大地加速了......
随着互联网和自媒体的发展,在线新闻的规模与传播范围得到了极大的扩展。面对海量的在线新闻文本,如何根据其描述的内容对其进行划......
为解决单一的卷积神经网络(CNN)缺乏利用上下文本信息与单一循环神经网络(RNN)对局部信息把握不全面问题,提出一种基于注意力机制......
文本数据作为最常见的数据形式之一,涵盖范围广、数据量大,又有密度不均的特点,不同平台中存储的文本数据结构不定相同,结构化文本......
目前,裁判文书的书写愈加规范,且随着电子化裁判文书的普及,裁判文书已然成为司法领域研究的重要对象。本文基于孪生神经网络,并结......
本文首先介绍了信息过滤的发展历史、研究现状和它的意义.随后对目前信息过滤的主要模型和方法进行了总结.简要介绍了我们的信息过......
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个富有挑战性的课题,是新一......
近年来,随着互联网的不断发展和普及,各种各样的信息以爆炸般的速度产生。信息资源已经成为一种新的财富。但是,信息的日益增多带......
在互联网中,以新闻、电子书以及其它形式存在的信息正在高速增长,如何有效地运用海量信息成为人们目前面临的一个关键问题。为了梳理......
网络技术的迅猛发展及互联网的普及,使得人们越来越依赖于网络信息的交流与共享,从互联网上获取人物信息的需求也逐步提高,然而海......
概念格和连通性分析是近年来获得飞速发展的数据分析的有力工具,已被广泛地应用于知识发现和数据挖掘领域,并取得了较好的成果。因......
当前,海量文本大部分都采用向量空间模型来描述。向量空间模型假定代表各分量的词条间不存在语义关联。同时,由于文本向量的高维性、......
文本特征提取是从文本信息中抽取能够代表此类或某文本的信息。特征提取方法研究的目的是过滤数据噪音特征、选择最优的特征子集来......
我国医疗卫生资源配置不均匀,且利用效率较低,随着人们对健康管理、咨询问诊需求的日益增长,医疗卫生资源的供需不对接问题逐渐显......
随着大数据技术的日益成熟,以文本为对象的研究正引起学术界的重视,但目前尚处于起步阶段,有必要对文本分析技术和文献进行系统梳......
瓦轴集团现有产品售后质量反馈过程存在诸多不足,比如客户反馈数据纸质登记,人工统计产品质量问题造成大量售后数据保存不合理,且......
故障诊断是企业提供售后服务的关键,如何准确的发现故障原因,减少停机时间,快速维修成为增强企业核心竞争力的关键。本文以常州某......
随着互联网的快速发展,网络上信息量越来越大,人们对某一专业领域的信息需求越来越难以得到满足,主题搜索引擎应运而生,它可以帮助......
电子邮件的流行带来身份伪冒、诈骗邮件等问题日益凸显,本文使用Python作为编程语言,基于TF-IDF算法和余弦相似度对邮件作者进行识......
以英汉维三种大规模文本聚类为目标,针对三种语言的特点实现基于LDA模型的静态文本聚类系统.因为存在博客、微博等网络媒体的文本......
摘要 文本理解是人工智能的一个重要分支,其技术推动了人与计算机之间在自然语言上的有效交互.为了让计算机准确地理解和感知文本数......
案件文书作为司法信息公开的重要内容,需要在审判之后向公众公开,某些涉及未成年人的案件文书极有可能会造成未成年人的个人隐私信......
本文提出了一种基于规则匹配和机器学习的论文作者名自动化消歧方法:首先基于人工构建的人名匹配规则确定候选作者,对于存在多个候......
为了实现规则中文文件碎片的拼接,研究了规则碎片文件中汉字文本的特征,提出了文件碎片中文本行信息的提取方法,定义了基于L1-norm......
针对传统卷积神经网络和循环神经网络在文本情感分析领域对文本特征提取存在的语义丢失、无法识别文本关键词等问题进行改进,提出......
针对当前文本分类神经网络不能充分提取词语与词语和句子与句子之间的语义结构特征信息的问题,提出一种基于LSTM-Attention的神经......
[目的 /意义]为了解决主流特征提取方法的提取效率有限的问题,在Fisher判别分析的基础上,借鉴流形学习思想,提出融合全局和局部特......
为从影片简介中获取更丰富的文本特征并考虑短文本的语义依赖性,构建一种基于卷积双向长短记忆神经网络模型(CBiLSTM)的视频文本特......
研究了基于深度学习的文本特征提取方法并用于设计,具体使用卷积神经网络与卷积循环神经网络构建了一种特征提取模型,将其同统计学......
以英汉维三种大规模文本聚类为目标,针对三种语言的特点实现基于LDA模型的静态文本聚类系统。因为存在博客、微博等网络媒体的文本......
提出了用模式作为复杂类型数据的知识表示方法,结合结构化数据挖掘给出了基于复杂类型数据知识发现的结构模型-发现特征子空间模型......
Web文本特征获取是Web挖掘中重要而关键的前提工作,传统文本特征获取方法由于在确定文本词条的权重方面做得不够准确,从而直接影响了......
随着互联网技术飞速发展,新闻信息数量快速增长和传播。海量新闻信息的产生和迅速传播丰富了人们的生活,但是也会带来信息过载问题......
介绍了一种新的文本语义形式化模型--语境框架 .语境框架是一个三维的语义描述,它把文本内容抽象成领域(静态范畴)、情景(动态描述......
【目的】基于用户网络评论构建有效的评分预测模型,挖掘用户消费行为特征。【方法】基于LDA模型,量化用户评论为主题特征向量作为......
在当今社会中,越来越多的信息科技被应用到各个领域,在刑事案件侦破上,也体现出了这种趋势。在公安机关侦查案件时,刑事模拟画像技......
受语言固有的模糊性、随机性以及传统文本特征词权重值计算方法不适用于情感词等因素的影响,文本情感分类的正确率很难达到传统文本......
文本挖掘(Text Mining,简称TM)是以文本信息作为挖掘对象,从中寻找信息的结构、模型、模式等隐含的、具有潜在价值知识的过程。TM......
随着信息技术的不断发展,互联网上产生出了大量文本数据。文本分类技术作为组织和处理大量文本数据的关键技术也同时得到了快速的......
传统的推荐系统主要通过用户、项目的历史交互信息来学习用户、项目的特征信息,从而实现推荐。但是对于刚进入市场的新项目,因为没......
Webshell是一种以网页文件形式存在的命令执行程序,也称为后门文件,是黑客入侵网站采用的重要手段。由于Webshell的危害极大,Websh......