【摘 要】
:
现有的文本聚类算法存在划分不准确以及同名消歧算法的冷启动性等问题。针对这些问题,本文融合多种特征提取算法提出了基于Word2vec-Textrank与DMM的长文本聚类算法,之后引入文本中的元路径信息提出了基于元路径的Kmeans聚类算法,最后研究文本中的词向量信息和元路径信息融合方式,提出了基于Word2vec和元路径的同名消歧算法。主要研究工作和成果如下:1提出了一种基于Word2vec-Te
论文部分内容阅读
现有的文本聚类算法存在划分不准确以及同名消歧算法的冷启动性等问题。针对这些问题,本文融合多种特征提取算法提出了基于Word2vec-Textrank与DMM的长文本聚类算法,之后引入文本中的元路径信息提出了基于元路径的Kmeans聚类算法,最后研究文本中的词向量信息和元路径信息融合方式,提出了基于Word2vec和元路径的同名消歧算法。主要研究工作和成果如下:1提出了一种基于Word2vec-Textrank与DMM的长文本聚类算法WTDMM。针对长文本中的特征信息提取,本算法首先使用Word2vec模型对长文本进行词向量构建,然后通过Textrank关键句提取算法对长文本中的句子进行排序,剔除文本中的无用信息,之后采用DMM对处理后的文本数据进行聚类。搜狐和20NG新闻数据集上的实验表明WTDMM算法可以有效的提取长文本中关键信息。2提出了基于元路径的K-means聚类算法MP-KMS。为挖掘文本中潜在的信息,以提升文本聚类的质量。本算法首先提取文本中的实体信息,之后通过实体之间的关系来构建元路径网络,利用元路径信息来计算文本之间的相似度,最后采用K-means聚类算法对文本进行聚类。Disambiguation和Metapath2vec数据集上的实验表明MP-KMS算法能够有效挖掘文本中的潜在信息。3提出了一种基于Word2vec和元路径信息的同名消歧算法WP-ND。针对同名消歧的冷启动问题,提出了一种融合词向量和元路径信息的方法。该方法利用Word2vec来构建文本的词向量信息,得到文本之间的相似矩阵,又利用元路径信息来计算得到文本之间的另一个相似矩阵,对两个相似矩阵进行混合,然后采用OPTICS聚类算法来进行文本聚类,以达到消歧的目的。OAG-Who Is Who和AMiner数据集上的实验表明WP-ND算法能得到更优的同名消歧效果。主要研究贡献:融合多种特征提取算法从长文本中提取出关键的信息,设计实现了一种关键信息提取算法;根据文本中实体与实体之间的联系来构建元路径信息,实现了对文本中隐藏信息的挖掘;针对文本中的词向量信息和元路径信息,提出了一种有效的融合算法。之后通过实验验证了算法的可行性和有效性。
其他文献
黄瓜(CucumissativusL.)是一种世界性蔬菜作物,其种植历史已有3000多年。杂种优势利用是现代品种选育的重要方向,优良杂种F1代选育的前提是基于大量稳定自交系的选配与筛选,利用辐射花粉授粉结合胚培养技术诱导蔬菜作物的单倍体/双单倍体是现代植物育种的重要手段,可以在较短时间内快速获得大批稳定纯合的自交系,从而加速杂种F1品种的选育进程。但这种技术在黄瓜单倍体的诱导中仍存在诸多问题,比如
我国新型农业经营主体逐渐由小农户变为农业大户、家庭农场和农业公司等,生产方式逐渐变为集约化生产。另外,我国盐碱地面积众多且地力和产量有很大的提升空间。本研究针对上述问题,采用极简化施肥策略进行田间试验研究,探究缓释肥和内生菌根肥对该地区主要粮食作物产量以及土壤质量的影响,为在该地区推广合理的施肥模式提供理论依据。试验共设置5个不同处理:不施肥(CK);常规施肥(F);缓释肥作为基肥一次性施用(S)
水稻是供养世界一半以上人口的重要粮食作物。然而,稻瘟病Magnaporthe oryzae是水稻的一种常见的真菌病害,会造成水稻的严重产量损失。随着水稻稻瘟病抗性品种和化学农药在水稻的生产实践中的弊端日益凸显,微生物源农药的地位逐渐崭露头角。BL06是从黄瓜根际中分离得到的一株对稻瘟病具有良好防效的地衣芽孢杆菌。温室实验结果显示BL06生防效率达到63.05%,为了进一步了解地衣芽孢杆菌BL06对
辣椒疫霉(Phytophthora capsici)和大豆疫霉(Phytophthora sojae)是疫霉菌中重要成员,不仅严重影响粮食安全,而且对经济社会造成了巨大损失。疫霉菌通过向寄主体内分泌大量的效应分子破坏其免疫反应,完成侵染。研究病原菌效应分子与寄主植物蛋白质互作,对于理解病原菌致病机制是至关重要的。本研究通过对辣椒疫霉和大豆疫霉中的3个效应分子进行互作蛋白的鉴定和具有特定结构域的效应
液压机械无级变速箱(HMCVT)作为一种液压与机械复合的新型传动装置,可根据工作负载变化自动切换档位,提高变速箱的传动效率,是目前重型拖拉机传动系统的研究方向。拖拉机在田间工作时,变速箱需要频繁的换段来适应多变的工况。拖拉机换段产生的冲击会对换段部件湿式离合器以及传动系统的寿命产生影响。为减小变速箱换段冲击、提高驾驶舒适性,本文将仿真分析与台架试验相结合,从以减少湿式离合器滑磨功为优化目标的结构参
H9N2亚型禽流感、新城疫和鸡肝炎-心包积液综合征在我国家禽中均广泛流行且危害严重。作为鸡的三大传染病之一的新城疫是鸡的必防传染病,H9N2亚型禽流感病毒由于抗原性不断变异,现有疫苗免疫效果逐年下降,常常发生免疫失败。鸡肝炎-心包积液综合征是近年来严重危害中国养鸡业的新发传染病,为减少以上三种疫病对我国养鸡业的危害并降低免疫应激,我们开展了 H9N2亚型禽流感、新城疫和鸡肝炎-心包积液综合征三联灭