【摘 要】
:
随着互联网和物联网等信息技术的飞速发展,网络中积累了大量半结构化和非结构化的文本数据,如何从这些海量的文本中获取所需的信息,已经成为了统计分析工作者的一项重要任务
论文部分内容阅读
随着互联网和物联网等信息技术的飞速发展,网络中积累了大量半结构化和非结构化的文本数据,如何从这些海量的文本中获取所需的信息,已经成为了统计分析工作者的一项重要任务。近年来,随着人们物质生活需求的不断增长,农业产品的质量和产量等问题越来越被重视,以信息和软件为中心生产模式的农业物联网得到了广泛的应用,其实时监控、远程控制和查询等功能对现代农业的发展具有重要意义,对农业物联网上的文本进行挖掘是一件非常有价值的事情。目前,国内外对文本挖掘进行了大量的研究,文本挖掘的方法日趋完善,文本挖掘的内容日渐丰富,其主要在相似性检测、文本分类和信息获取等领域,另外,高效直观信息图成为了新型文本内容显示方式,如文字云。本文主要采用农业物联网中的文本数据,从文本相似性和文本文字云两个方面展开探讨和研究。在文本相似性研究方面,本文采用了两种方法对文本进行相似性分析,一种是结合关键词微变的聚类和LD算法的方法,首先约简文本中的低频词,利用LD算法分析词与词之间的相似度,建立文本相似度矩阵,然后用特征词间的相似度及其权重来构建空间向量,最后计算文本间的相似度;另一种是结合阈值优化和e EP模式的方法,在获取文档特征项频率分布表之后,首先利用粗糙集联合决策分布密度矩阵,计算最小阈值,提取满足一定阈值的高频词,然后结合语义分析与逆向文档频率方法获取基于语义类内文档频率的高频词,采用e EP模式分类法获得最简模式,最后结合相似性公式和《知网》的语义相关度,计算相似程度得分,利用三枝决策理论优化阈值。在文本文字云研究方面,本文提出了一种基于统计分析的文字云和主题模型文本挖掘方法,首先对文本进行移除数字、去除停用词等预处理操作,然后执行中文分词,构建语料库,建立文档-词条矩阵,最后以文字云和主题模型的形式呈现挖掘结果。
其他文献
<正>哈尼地区文化旅游的核心是以梯田为物质载体、以梯田农业为轴心构建民族文化。哈尼梯田分布广袤,跨越红河、普洱、玉溪等州、市,涉及十多个县份。以元阳为核心区
《诗经》是我国最早的诗歌总集,先民们为了更好地表达对生命世界的好奇和热爱,摸索出了“赋、比、兴”这样质朴而高妙的诗歌表现手法,生动鲜活地再现了一幅幅西周初年到春秋中叶的社会生活画面,被誉为时代的“大百科全书”。《诗经》中“赋、比、兴”手法的大量使用,既使文学艺术创作呈现出繁荣与活力,又促动了先民更加深入观察和认知万事万物的标与本,努力联想和辨别事物之间的内在联系与互相镜射,从而更好地认知、观照自我
知识型员工是职业院校师资队伍的主体,是学校人才培养工作的核心力量。运用美国社会心理学家马斯洛的需求层次理论,结合知识型员工素质特点,充分把握知识型员工的多层次需求,
并联机床具有高精度、高速度、高刚度等优点,能够进行加工、测量、装配与物料搬运等操作。因此,并联机床是机床业发展的主要方向之一,在制造领域具有广阔的应用前景。本课题
教育公平是现代教育改革的核心,是各国政府教育改革的基本出发点和共同目标,它始终左右着教育改革的方向并最终决定着教育改革的成败。教育公平是指先天条件相等的个体,应获得相
针对10kV配电线路状态检测与检修技术相关内容,做了简单的论述。配电线路状态检测,采用发热检测技术与绝缘检测技术等,按照技术应用规范,开展检测工作,能够明确线路运行状态,
<正>走进智能包装1.智能包装的定义智能包装是指通过创新思维,在包装中加入了更多机械、电气、电子、信息和化学性能等新技术,使其既具有通用的包装功能,又具有一些特殊的性
我国市政公用工程在建筑中占据着重要的位置,市政公用工程建设对我国经济建设的发展有着重要的影响。鉴于此,要提高市政公用工程的建设施工质量,并且对施工中存在的问题进行
单双号限行手段是我国机动车环境污染治理的典型代表,自2008年试行后便顺势常态化,近年加剧的大气污染使其在全国的推广势不可挡。可单双号限行的实证分析却显示其经济与环境
目的探讨分析儿科呼吸系统反复感染患儿的临床治疗体会。方法以儿科2016年4月至2017年4月作为研究时间段,以此时间内儿科收治的呼吸系统反复感染患儿80例作为研究样本,随机分