基于复杂异质信息网络的文本特征构建与应用研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:fitye228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘领域的研究中,文本分析工作一直都是该方向的热门话题,常见的文本分析工作包括:文本的分类、聚类、实体集扩展等。当前常用的文本分析算法多是从文本本身来挖掘隐含特征,如词、语义、句法特征等方面。但是实际上,文本通常会受文本过短、数据量不足、难做标注等影响,导致提取的特征不佳,影响文本分析的效果。知识图谱,一个具备语义性质的知识库系统,由网络中的知识文本数据抽取构建而成,以RDF模式存储,可以看作是一种复杂的异质信息网络。它包含丰富的语义信息,可以作为辅助或独立数据源加入到文本分析工作当中。本文基于知识图谱,开展了以下两个与文本分析相关的应用研究工作。首先,本文提出了基于知识图谱的文本特征构建方法,MeTeCo。该算法把文档中合适的词汇与知识图谱的实体一一映射,通过设计的双向元路径生成算法,找到恰当的元路径特征发掘文本中潜在的知识关系特征,再结合传统的Bag-of-Words文本特征,构造出新型的融合元路径的文本特征。通过与其他文本特征在真实数据集上进行试验,验证了 MeTeCo算法的有效性。其次,本文提出了基于知识图谱的实体集扩展方法,CoMeSE。该算法将知识图谱作为独立的数据源开展实体集扩展工作,通过改进的双向元路径发现算法,基于随机游走的拼接元路径发现算法(RWCP),发现种子实体之间的重要元路径关系,利用新型的多类型约束元路径(MuTyPath)概念进一步精确表示知识图谱的路径特征,并且设计新的相似性度量算法MuTySim把路径语义特征标量化。在此基础上,该算法再分别利用启发式学习和PU learning算法衡量路径特征的重要性,构建合适的实体集扩展模型。最后通过与现有的实体集扩展算法在真实数据集上进行对比实验,验证了 CoMeSE算法的有效性、高效性和稳定性。
其他文献
形成于特定历史时期,蕴含特殊文化内容的红歌,作为一种独特的音乐类型,其当代教育功能是多方面的:一是历史教育功能,红歌真实、生动地再现了中国共产党领导中国人民波澜壮阔的
<正> 一、面对严酷的现实灾难抗击“非典”的斗争作为一场突如其来的自然灾害,一场没有硝烟的战争,考验了中国人民,弘扬了民族精神,锻炼了干部队伍。这是一次严峻的考验和挑
<正>目的:探讨促性腺激素释放激素激动剂(GnRH-a)联合反加疗法对子宫内膜异位症(内异症)患者内分泌激素水平、低雌激素症状及骨质丢失的影响。方法:选择2009年4月至2010年7月
会议
根蛆是对为害大蒜等作物的双翅目害虫的幼虫阶段的统称。近年来,大蒜根蛆发生呈逐年加重趋势。根蛆为害可造成大蒜减产,并对大蒜品质有较大影响,受害重时经济损失严重。$$ 大
报纸
目的观察显微外科皮瓣、肌皮瓣治疗足踝部软组织缺损及骨外露的疗效。方法择2014年4月-2017年4月该院收治的50例足踝部软组织缺损及骨外露患者,采取显微外科皮瓣、肌皮瓣治疗
一、财政政策相机抉择的理论分析财政政策相机抉择,是相对于财政自动稳定器而言的,指政府根据一定时期的经济形势变化情况,为达到预定的宏观调控目标,采取相应的公共支出和税
提出一种接触印痕位置参数分析法,用于确定弧齿锥齿轮安装误差的可变动范围。根据设计要求的啮合性能,采用局部综合法,设计弧齿锥齿轮加工参数,得到弧齿锥齿轮副齿面。在齿面
目的评价不同皮瓣、肌皮瓣修复坐骨结节深度压疮的手术方法和治疗效果,探讨压疮皮瓣修复的治疗策略和各类皮瓣的优缺点。方法 37例坐骨结节深度压疮患者,应用臀大肌下部肌皮
<正>为使减速器获得最佳性能,使齿轮运转平稳,不发生粘连或互相干扰,齿轮必须正确地安装定位。工作时齿轮必须保持适当的间隙。对直齿轮和斜齿轮而言,通常最好的定位方法是,
以N,N’-亚甲基双丙烯酰胺(NMBA)为交联剂,在不加引发剂和没有气氛保护的情况下,采用超声辐射聚合的方法制备了丙烯酰胺(AM)/2-丙烯酰胺基-2-甲基丙磺酸(AMPS)共聚高吸水性树