【摘 要】
:
目前,社区文本数据管理系统被广泛应用在各大社区的信息化服务中。随着信息量的爆炸式增长以及人口老龄化日益严重,很有必要建立起社区文本数据管理系统。系统主要包括文本上传、数据存储、文本分类和人机交互四个部分。其中,文本分类要按文本深层次语义信息进行分类,主要包括了文本预处理、文本向量化和分类模型构建等。然而大多数算法没有考虑训练模型的优化、语义信息层面的挖掘,进而导致分类准确率下降,影响系统性能。本文
论文部分内容阅读
目前,社区文本数据管理系统被广泛应用在各大社区的信息化服务中。随着信息量的爆炸式增长以及人口老龄化日益严重,很有必要建立起社区文本数据管理系统。系统主要包括文本上传、数据存储、文本分类和人机交互四个部分。其中,文本分类要按文本深层次语义信息进行分类,主要包括了文本预处理、文本向量化和分类模型构建等。然而大多数算法没有考虑训练模型的优化、语义信息层面的挖掘,进而导致分类准确率下降,影响系统性能。本文研究分析了现有的主题分类算法和文本分类算法,对系统算法做出了改进。本文的主要研究工作如下:1.首先利用网络爬虫技术建立社区文本数据集,将LDA与近年提出的LDA2vec算法在社区文本数据集上进行了对比实验。LDA2vec是将LDA与Word2vec相结合而生成新的算法,可以在语义层面提取到社区文本中词与词之间的相互联系。最终在社区文本数据集上与LDA模型进行实验对比,总体效果一致,准确率是65%左右。但是在样本分布不均衡(样本数量较少)的类别中分类效果明显优于LDA。2.针对传统的TF-IDF算法,对其中的词频统计公式和逆文档公式做出了改进。在词频计算中考虑到不同类别对每个特征词统计的影响,在逆文档频率计算中考虑了不同类别之间的相互影响。分别对二者加上权重计算函数,另外按照特征词的词性和特征词出现在文本中的位置引入了权重,对算法进行了改进。改进后的TF-IDF算法在社区文本数据集上的实验结果表明,改进后TF-IDF算法在准确率上要优于LDA和LDA2vec,准确率达到了69%。3.为了进一步提高系统文本分类算法的准确率,提出用深度学习中的卷积神经网络来对社区文本进行分类。在模型中为了充分挖掘社区文本语义信息,采用word2vec模型进行文本特征向量表示,输入到卷积神经网络。在卷积神经网络输入层进行词嵌入之后,优化特征向量的提取,引入注意力机制。在模型训练上也采用了batch normalization、dropout等技巧来加速网络训练。最后的实验效果准确率达到了84.55%,远远超出其他模型,包括单一卷积神经网络模型。如果样本分布更均衡,准确率还会有所提升,所以达到了比较好的效果。为了建设社区文本管理系统,对改进后文本算法经过一系列实验分析后。最终发现引入AM并融合word2vec的卷积神经网络进行社区文本分类时,在稳定性和准确性上,都优于其他模型。可以将其应用在系统中,有非常好的实用价值。
其他文献
从广义上讲,参与可以定义为个人或实体决定与其他实体或个体合作或结盟。将这一概念置于本研究课题的背景之下,可以理解为津巴布韦的议程是与国际社会中的行为体重新结盟或合作。在此外交政策出台之前,诸多因素导致津巴布韦被排除在国际社会中的双边和多边关系之外。因为津巴布韦被认为缺乏透明度和选举期间的政治暴力而违反民主。2000年代初,津巴布韦政府开始实施“快速土地改革方案”,下令没收所有白人商业农场,并将其交
伴随着经济的快速增长和城市集群化迅猛发展,长江三角洲地区(简称“长三角”)人为大气污染物排放量显著增加,成为区域性复合型大气污染非常突出的区域。由于城市紧邻,地势平
自我教育是大学生思想政治教育的重要组成部分,随着对大学生思想政治教育研究的深入,对自我教育的研究已经成为大学生思想政治教育工作面临的重要课题之一。自我教育就是在思想政治教育过程中,教育对象根据社会发展和自身发展的要求,产生自我学习的意识,再通过深刻自我意识、明确自我选择、优化自我调控和科学自我评价等方式,在学习过程中克服错误思想和行为,使自己的政治倾向和思想品德不断完善和发展,不断发挥教育的主体地
氮、磷是造成水体富营养化的主要物质,城镇生活污水因排放量巨大而成为一个重要污染源,近年来对氮、磷排放要求日益严格。反硝化除磷工艺因解决了传统脱氮除磷工艺所存在的固
生态安全是未来经济社会稳定发展的主要保障,已具有与政治安全、经济安全等同等重要地位。“一带一路”倡议构想下,东北边境城市作为东北亚开放的重要窗口,其生态安全是维护国家主权安全、促进国家合作和区域经济发展的关键。东北边境城市生态安全状况受多方面因素综合影响,需要全面分析,明确安全和不安全区域,为生态安全维护与管理战略提供导向,保障陆疆生态环境和经济社会有序发展。本文全面分析威胁边境城市生态安全的自然
随着计算能力的迅速提升和人工智能技术的飞速发展,自然语言处理(NLP)作为其重要的研究领域,具有很高的研究价值和广阔的应用场景,并已经成为了备受瞩目的研究课题。本文旨在利用深度神经网络技术,通过对长文本外语到目标语言的翻译,然后对长文本关键内容的智能化摘取,从而实现提取外语的关键部分,达到快速阅读不同语言文章核心内容,获取关键信息的目的。本文的研究目的是基于深度学习的跨语种文本摘要系统的设计和实现
在世界范围内,共享经济正处于高速发展阶段,中国共享经济发展势头迅猛,并在大中城市迅速崛起。共享经济作为一种新经济业态,其发展的基本要素是什么,在新疆发展现状如何,占新疆GDP的比重有多少?以及新疆应该在哪些领域发展共享经济,发展前景怎么样?本文针对这些问题展开了研究。本文研究数据来源于全国各省市的各类统计年鉴、中国共享经济发展报告、各地区的国民经济和社会发展统计公报等。主要从共享经济发展要素分析、
无线传感器网络(Wireless Sensor Network,WSN)被用于感知和传输各种监测信息,电力行业是物联网感知技术应用较为广泛的领域之一。其中,输电线路物联感知监控可以起到监测电网设备安全,及时防范风险的作用。输电线路在线监测WSN采用特殊的链式拓扑结构,其节点部署和数据传输均具有较强的场景特征。面向输电线路WSN的路由规划技术以层次化路由为主,而现有算法仍存在簇头节点失效过快、簇间路
以聚丙烯腈(PAN)、Zn(NO3)2为主要原料,采用离子交换及共沉淀法制备了PAN/Zn(OH)2复合物,然后在一定温度及氮气气氛下进行热处理得到具有共轭结构的环化聚丙烯腈/氧化锌(CPAN/ZnO)复合材料。采用扫描电子显微镜(SEM)、透射电子显微镜(TEM)、X射线衍射(XRD)、荧光光谱(PL)、紫外-可见漫反射吸收光谱(UV-vis DRS)等测试方法对CPAN/ZnO复合材料进行表征
本研究于2017年和2018年的6~9月在国家节水灌溉北京工程技术研究中心大兴试验研究基地开展,以夏玉米为研究对象进行小型蒸渗仪试验和大田小区试验。通过小型蒸渗仪试验分析了不同施肥水平下夏玉米植株冠层光谱反射率的变化特征,研究了夏玉米植株冠层光谱反射率及其含氮量的响应关系,筛选出玉米冠层含氮量监测的敏感波段与适宜的光谱指数,构建夏玉米冠层含氮量的高光谱估算模型;同时基于实测的夏玉米冠层高光谱信息,