【摘 要】
:
针对用户评论中产品特征—观点对的提取及情感分析问题进行了研究。为了提高提取及分析的准确性,利用组块分析提取产品特征,从中寻找到频繁项集,并用逐点互信息量(PMI)对候选产品特征进行过滤,得到产品的特征集合;利用特征与情感词在位置上的邻近关系,提取情感词并组成特征—观点对,通过点互信息方法(SO-PMI)进行情感倾向分析。为验证该方法的有效性,以酒店评论文本为例,从中提取酒店的特征—观点对并进行情感
【基金项目】
:
国家自然科学基金资助项目(71401107,71303157)
论文部分内容阅读
针对用户评论中产品特征—观点对的提取及情感分析问题进行了研究。为了提高提取及分析的准确性,利用组块分析提取产品特征,从中寻找到频繁项集,并用逐点互信息量(PMI)对候选产品特征进行过滤,得到产品的特征集合;利用特征与情感词在位置上的邻近关系,提取情感词并组成特征—观点对,通过点互信息方法(SO-PMI)进行情感倾向分析。为验证该方法的有效性,以酒店评论文本为例,从中提取酒店的特征—观点对并进行情感分析,准确率为76.68%,召回率为70.84%。实验结果表明,引入组块分析可以有效地解决商品评论的细粒
其他文献
为了提高图像匹配的效果,提出一种自顶向下分裂聚类的图像匹配算法,该算法可以获得多个目标级别的对应关系的聚类,进而找到两幅图像共存的多个目标。在互k近邻图表示模型的基础上,通过团检测方法来获得图中的团,主要是利用分裂聚类的思想,并定义了一个团密度函数,根据此函数来确定分裂终止条件。根据团检测技术获得的团恢复出团内的对应关系,从而达到图像匹配的目的。实验结果表明:该算法有较好的性能,可以应用到很多图像
为了研究不同类型元件组成系统后元件各自的维修率,同时考虑工作环境因素对维修率的影响,提出了元件维修率分布的概念。元件维修率分布是通过将SFT中故障概率分布代替Markov链中失效率实现的,给出了不同元件组成的并联和串联系统的元件维修率分布推导过程。实现维修率分布的计算关键在于状态转移概率p_0范围的确定及不同元件故障率与维修率的比值,即为计算过程所需的限制条件,给出了p_0范围和比例限定的计算方法
为提高共生生物搜索算法(symbiotic organisms search,SOS)的性能,提出一种基于旋转学习策略的共生生物搜索算法(symbiotic organisms search using rotation-based learning,RSOS)。该算法将串行个体更新方式改为并行种群更新方式,提高算法收敛速度;引入遍历保优的旋转学习策略,代替寄生机制的盲目随机搜索,增大保留新个体的
针对高维数据具有低秩形式和属性冗余等特点,提出一种基于属性自表达的无监督超图属性选择算法。该算法首先利用属性自表达特点用其他属性稀疏地表达每个属性,此自表达形式使用低秩假设寻找高维数据的低秩表示,然后建立超图正则化因子保持高维数据的局部结构,最后利用稀疏正则化因子进行属性选择。属性自表达特性确定属性的重要性,低秩表示相当于考虑数据的全局信息进行子空间学习,超图正则化因子考虑数据的局部结构对数据进行
首先研究可满足性问题,报告了DNA计算关于可满足性问题的研究现状;然后介绍了微流路芯片高压凝胶电泳,给出了解决可满足性问题的解法;最后通过实例验证了算法的可行性。给出的算法操作简单、出错率低。算法只需要芯片电泳,不需要构造探针,也不需要荧光标记。对解决其他NP问题具有很好的借鉴意义。
为了提高传统CURE(clustering using representatives)聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中元素提供的信息度量不同簇之间的相互关系,并描述数据的分布;在高、低层聚类阶段,采取不同的选取策略,分别选取相应的代表点。在UCI和人造数据集上的实验结果表明,提出的算法在一定程度上提高
为解决多标签学习中数据不平衡、传统重采样过程标签样本集相互影响以及弱势类信息大量重复和强势类信息大量丢失的问题,提出多标签随机均衡采样算法。该算法在多标签的条件下提出随机均衡采样思想,充分利用强势类和弱势类信息来平衡数据冗余和损失;优化样本复制和删除策略,保证不同标签重采样过程的独立性;提出平均样本数,保持数据的原始分布。实验在三个数据集下对比了三种多标签重采样算法的性能,结果表明,0.2和0.2
互连网络的故障诊断是网络系统可靠性分析的重要内容。PMC模型是一种重要的网络故障模型。针对具有哈密顿环的互连网络(也称做哈密顿网络),利用分治回环思想,提出了一种新的基于PMC故障模型自适应的诊断算法。其核心思想是,对哈密顿网络进行序列划分,然后对得到的每个01序列的结节进行回环诊断,最后利用回环诊断的结果对非01序列的节点进行诊断。对于一个具有多个01序列的互连网络,该算法通过有限次轮回的测试,
传统遗传算法存在早熟现象,而且其在海量数据模型下的求解精度和可扩展性也有待提高。为了改进上述问题,在研究孤岛模型和细粒度模型优势基础上,利用遗传算法自身的并行性,提出一种仿细粒度的粗粒度并行模型,基于Spark实现了一种双层并行的遗传算法。将改进算法应用于旅行商问题Berlin52数据集的求解,实验结果表明,与传统的并行模型相比,改进后的算法可以明显缩短计算时间,增大搜索范围,早熟现象也得到了改善
为了能够有效提高虹膜检测和定位的质量、准确性和速度,排除光线照射、噪声或是拍摄的角度等不利因素对定位结果的影响,提出一种虹膜的定位算法。该方法首先在对图像进行预处理的基础之上,运用共形几何代数理论的思想,将欧氏空间中的几何量变换到共形几何代数空间中去,这些几何量在共形几何代数空间中都是以统一的矢量形式表示,从而使这些几何量之间的计算更加方便、简洁;最后借助Radon变换对目标圆,即虹膜的内外圆所在