多语义文本表示及其应用

来源 :中国计量大学 | 被引量 : 0次 | 上传用户:seryanny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本是一种非结构化数据,现有技术无法直接对文本进行自动化分析处理.文本表示是指将文本转为计算机可以直接识别的数据.本文就文本表示及其应用进行以下研究:1.Word2vec是一种有效的词表示模型,可以将词语表示成一个低维紧凑的词向量.但是Word2vec每次训练得到的词向量都不一致进而导致挖掘到的相似词不稳定.这个问题在特定语料库中尤为明显.为此,本文提出了一种新的相似度排序算法.该算法通过计算单词之间的相似度来构造概率转移矩阵,然后迭代估计目标单词稳定的相似度排序.最后从相似度排序中提取目标词的相似词.实验结果表明,该算法挖掘出的相似词更具稳定性,同时在准确率上也有所提升.2.文本表示和聚类算法是文本聚类的基础.传统的向量空间模型不能捕捉文本的语义关系,词嵌入的表示具有语义信息,但不能克服一词多义问题.稀疏复合文档向量表示将单词分配到不同的语义空间中,以表示单词的不同语义.由于某些单词的语义空间概率小,文本表示存在数据稀疏冗余等问题导致聚类效果不理想.针对以上问题提出了多语义复合文档表示模型来解决文本表示的冗余问题,并进一步确定冗余语义空间与聚类离群文档向量.针对文本向量的结构特征,提出了一种识别去除离群文档向量的K-means聚类算法.通过文本聚类实验验证,结果表明提出的方法与其他文本表示模型和标准K-means算法相比有更优的聚类性能.3.网络评论分布不均衡现象十分明显,现有的网络评论挖掘应用方法多依赖专家决策和主观经验.针对以上问题,在利用不平衡网络评论构建服务质量评价指标体系的过程中,提出基于主体频率的G指数模型以客观数据提取高频特征词,并通过特征词词向量聚类构建服务质量三级评价指标体系.在服务质量评分模型中,本文提出一种基于热度指数加权的顾客满意度评分方法,通过在评分中考虑主体受顾客关注的热度,有效弱化数据不均衡产生的评价偏差.本文以猫途鹰网站中国五星级酒店网络评论为数据来源验证方法的可行性,实验结果表明顾客最为关注酒店的餐饮服务、住宿条件、住宿服务和周边环境等四个方面,并得到顾客对酒店在整体及四个关注方面的满意度排名,发现品牌酒店的服务质量更具竞争力.
其他文献
颗粒的近壁面沉降是最近多相流领域的热点问题,而分层流体是自然界和工程应用中的常见形式。分层流体中,颗粒沉降受到许多因素的影响,例如上下层流体物理化学性质、颗粒的粒径以及密度、沉降初始条件等。研究分层流体中近壁颗粒沉降,探索壁面效应和分层流体对颗粒沉降的影响机制是非常有趣的科学问题,同时也对相关实验技术提出了新的要求。本文利用高速阴影成像系统对分层流体中颗粒的近壁面沉降特性进行了研究。主要关注颗粒在
学位
目前,人工检测是拉索表面缺陷的主要检测方法,此种方式存在效率低,危险性高,检测结果主观性强的缺点,如何快速、准确地检测拉索表面缺陷成为行业一大难题。本文针对实际检测工况,以孔洞、缝隙、损伤三种常见缺陷为研究对象,基于机器视觉技术实现拉索表面缺陷的自动化检测,具体工作内容如下:1.拉索表面缺陷检测装置设计。本文在参阅国内外相关文献的基础上,结合项目需求和拉索检测实际工况,确定系统设计方案和检测流程,
学位
超微容量主要应用于生物制药、基因工程等新兴领域,作为实验室主要的容量计量载体,移液器能够精确实现超微容量的转移。现有的移液器校准方法均以静力衡量法为主,传统的称重法维护成本高且极易受溶液蒸发的影响,在大部分多通道移液器的校准过程中还存在容量无法同步测量、校准效率不高的问题。本课题基于光度吸收原理设计了超微容量光学校准系统,验证了光学法在超微容量领域的可行性,课题具体的研究内容如下:(1)通过光度吸
学位
脱硫石膏(FGD)是湿法烟气脱硫副产物,属于大宗工业固废(产量超过8000万/吨),带来严重的环境安全隐患与资源浪费。利用脱硫石膏(主要成分为二水石膏,Ca SO4·2H2O)制备无水石膏晶须是一种高附加值的资源化利用途径。本论文绘制了在乙二醇水体系中硫酸钙的热力学相图,数据表明其转化路径为:二水石膏-半水石膏-无水石膏。研究并发现了pH、醇水比和温度等过程参数对转化速率和晶体形貌产生影响。当过程
学位
图像超分辨率重建是计算机视觉领域的研究热点之一,它在医学诊断、安全监控和航天航空等领域都具有极其广泛地应用。现阶段提出的图像超分辨率重建方法主要是通过深度网络来学习低分辨率图像和高分辨率图像之间的映射关系来重建高分辨率图像。因此,如何构建鲁棒、有效的深度网络就成为图像超分辨率重建方法的关键问题。本文将数据驱动的超分辨率重建方法和模型驱动下的超分辨率重建方法相结合,通过专家先验知识指导深度网络的构建
学位
图像超分辨率重建是指设计高效的算法,从低分辨率图像重建高分辨图像,在医学诊断、卫星成像等领域有着广泛地应用。近年来,人们主要通过加深或加宽深度网络来提高重建性能,但同时这也需要高昂的硬件设备和巨大的电能消耗。鉴于此,本文从模型驱动与数据驱动相结合的角度出发,研究专家先验诱导下的基于深度学习的超分辨率重建方法,提出了基于递归多尺度卷积网络的图像超分辨率重建方法、基于优化最小方法的递归多尺度去噪网络的
学位
智能电表作为智能电网中重要的组成部分,其软件质量影响着电力计量工作的开展。伴随着能源互联网的发展,新时期涌现的高级业务场景应用对智能电表的技术功能赋予了更多的需求。智能电表不仅要保障核心计量功能,也要支撑新业务下扩展业务有序充电、现货交易、负荷识别等应用。同时电表软件的规模及复杂性在成倍增加,新一代智能电表技术要求也提出了软件可维护升级要求,智能电表软件可维护性无论从研发还是现场应用运维的角度都越
学位
二维铁电材料具有自发极化的特点,使其在非易失性调控方面具有独特的优势,越来越多的二维铁电材料被预测的同时被实验证实。之前的研究表明石墨烷(半氢化石墨烯)在保持石墨烯骨架完整性的基础上带入非金属元素(氢)打开了带隙且引入了磁性,引起了关注。本研究的目的是想通过二维铁电材料的极化翻转实现对石墨烷物理性质的调控,使其在微型信息存储器件领域有所发展。基于第一性原理计算的方法,我们研究了In2Se3对不同浓
学位
当前,点云分类在3D计算机视觉领域受到广泛关注.深度学习技术,特别是卷积神经网络,已经在2D计算机视觉领域大放异彩,但在3D点云分类任务上正处于一个快速发展阶段.基于卷积的点云分类问题主要面临信息利用不足,特征提取不充分等挑战.本文主要关注基于3D点云数据的卷积神经网络方法,深入细致地研究用于点云分类任务的卷积核构造方式和点云特征提取的方法.在现有方法的基础上,设计了一系列新颖的卷积核和混合特征学
学位
图片模糊集是直觉模糊集的一般化,能够更好的表示具有模糊性、不确定性和不一致性的信息.在多属性决策中,聚合算子和距离度量是重要的工具.本文主要研究基于图片模糊集的聚合算子和距离度量,并将其应用于多属性决策问题.具体研究内容及创新点如下:(1)给出图片模糊聚合算子的公理化定义.基于图片模糊t-可表示三角范数和Frank三角范数簇,定义了图片模糊运算,提出图片模糊Frank加权平均聚合算子和图片模糊Fr
学位