基于科普平台的知识图谱

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:kiddlau2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:科普与科研是科学工作者两大同等重要的工作,互联网的迅速发展给我国的科普工作带来的新的方法和模式。该研究基于已有的科普平台进行试验,将科普平台的资源进行整合分析,建立广泛关联的知识图谱,利用知识图谱为科普平台提供一种无分界的知识网络,从而对该平台的用户起到引导、推荐、启示的作用。
  關键词:知识图谱;实体间关系;可视化关系网络
  中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2017)14-0087-04
  从Web时代开启至今,互联网技术不断演进。人们获取信息的效率有了大幅提高,但是随着大数据的到来,传统搜索引擎技术的不足逐渐显现,人们不得不在大量的搜索结果中进行人工排查和筛选。因此如何更高效的获取信息成为了摆在人们面前的一道难题。知识图谱作为下一代搜索引擎的核心技术,为解决这一问题指明了新的方向。目前,知识图谱技术在智能语义搜索、移动个人助理以及深度答系统中发挥着重要作用,进一步推动了人工智能机器人的发展。本研究是基于少儿科普网站的知识图谱的建立,在国内暂无此领域知识图谱的研究。少儿对信息的辨识度远低于成人,把知识图谱应用于少儿科普网站,方便少儿获取更好,更准确的科普资源,降低孩子的时间成本。本研究分为四层:实体获取及预处理,实体属性抽取,实体间的关系建立以及知识图谱的形成和应用。本研究将知识图谱应用于智能推荐、智能交友以及可视化关系展示,使得少儿和科学家在科普网站以更高效、更便捷、更准确的方式获取知识。
  1背景
  数字时代,种类繁多的数据源定期或不定期地产生大量的结构化和非结构化数据。据国际数据公司(IDC)的数字宇宙研究报告称,2011年全球数据总量为1.8ZB,并将在2020年攀升到35ZB。其中约有95%的数据因受限于人类数据分析解释能力和数据分析手段被闲置,严重阻碍科学研究的发展。数据可视化技术在此背景下应运而生。知识图谱就是数据可视化的研究热点之一。知识图谱的主要目标是通过可视化技术,描述知识资源极其载体,挖掘、分析、构建、绘制和显示知识及知识发展进程和其结构关系。
  知识图最初由谷歌提出,2012年5月17日,Google发布知识图谱项目,并宣布以此为基础构建下一代智能化搜索引擎。2013年7月微软发布Satori知识库。近年来,国内对知识图谱的研究和应用也逐渐增多,如百度知心、搜狗知立方等商业应用。
  2知识图谱研究意义及其应用领域
  2.1知识图谱研究意义
  知识图谱是实现智能语义检索的基础和桥梁。本项目目的是让知识的获取更加方便,更符合人们的思维模式,从而为用户呈现一个更为直观、简单的知识平台。知识图谱,不仅可以将互联网的信息表达成更接近人类认知世界的形式,而且提供了一种更好的组织、管理和利用海量信息的方式。通过知识图谱,将科普平台的知识进行直观展示,让所有信息一目了然。
  2.2应用领域
  目前知识图谱技术主要用于智能语义搜索、移动个人助理(如Google Now、Apple Siri等)以及深度问答系统(如IBM Wat-son、Wolfram Alpha等)。
  在智能语义搜索应用中。现阶段,百度、搜狗、Google提供了基于知识图谱的搜索业务。把搜索引擎的“中转站”模式转变为“终点站”,用户可以一站式获取搜索结果。
  在深度问答系统应用中。系统同样会首先在知识图谱的帮助下对用户使用自然语言提出的问题进行语义分析和语法分析,进而将其转化成结构化形式的查询语句,然后在知识图谱中查询答案。深度问答系统可以利用搜索引擎向用户反馈搜索结果,同时根据搜索的结果更新知识库从而为回答后续的提问提前做出准备。Fader等人基于Freebase和Probase知识库,对给定的问题分解成小问题,逐一解答后将问题合并。Berant等人基于Freebase知识库,将问题中的实体、关系词、疑问词映射成知识库中的实体与关系词,最后将问题中的所有词形成一个精确的查询语句,直接利用该查询得到答案。
  3研究内容及研究成果
  3.1研究内容
  本项目的目标是让知识获取更加方便,更符合人们的思维模式,从而为用户呈现一个更直观、更简单的知识平台。
  1)研究如何从科普网站文本中抽取构建知识图谱所需要的知识。
  2)研究科普网站实体与实体之间的关系结构。
  3)以可视化界面更好地呈现出科普网站知识图谱。
  3.2研究成果
  1)利用智能语义构建知识图谱。
  2)实现可视化关系网络。
  3)把知识图谱应用于智能推荐。
  4基于科普平台的知识图谱的构建过程
  4.1前期研究分析
  知识图谱建立之前我们进行了充分的理论研究与分析,确定了主要的研究路线与构建方法。
  从时间上分为四个阶段,第一阶段,研究项目内容与实施路线,确定项目的主要实施方案,建立初级的基于文档关键词的知识图谱;第二阶段,进行文档内容分析、提取关键词,建立基于文档内容的知识图谱;第三阶段,进行用户关联分析,建立普遍关联的知识图谱;第四阶段,将各阶段知识图谱以不同形式可视化,撰写学术论文并进行项目评估。
  从构建理论上分为三个层次,初期以关键词为主要对象,建立简单的知识图谱,搭建知识图谱的主要框架;中期进行文档内容分析,以自动提取的关键词为对象,建立关联度强的知识图谱;后期进行用户关联分析,建立普遍关联的知识图谱,挖掘潜在的知识关联,并将发现应用于科普平台。
  本项目采用PHP语言开发,与“智行少儿科普平台”所用的开发语言一致,数据库选用MySQL数据库,简便易操作,通过JavaScript进行异步获取数据以及制作网页,在后台通过PHP来完成算法的实现以及操作MySQL数据库。   4.2基于文档关键词的知识图谱
  初期详细分析了多个用于构建知识图谱的文档分析的算法,包括PageRank、Cosine余弦相似度、关联规则Apriori等。
  PageRank是谷歌公司最早提出并应用于Google搜索引擎的主要算法,Google利用此算法基本奠定了初期在搜索引擎领域中的领先地位,该算法之所以能够有如此重要的地位,主要在很大程度上是它解决了困扰前辈们的最大难题:对网页进行评价,为每一个网页赋予一个衡量其重要性的值,并最后应用于检索结果的排序。
  项目欲借助PageRank算法,通过计算每篇文档之间互相的关联数目,来对所有文档进行相似度排序。假设文档A有3个标签,分别为标签a、b、c,文档B有2个标签,分别为a、c,文档C有2个标签,分别为a、d。现统计各文档的人链与出链,统计结果放人转移矩阵,我们会发现ABC之间所有的连接都是双向的,因为两篇文档具有相同的标签,没有方向,这样得出的矩阵利用PageRank算法不断迭代之后也无法快速得出相似度矩阵。
  我们继续研究了关联规则的Apriori算法。Apriori算法是描述关联规则的一种经典算法。Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。通过分析我们认为本项目是通过发掘并计算每两个事务之间的相似度来建立普遍关联平台资源的知识图谱,而Apriori算法多用于消费市场价格分析、猜测顾客的消费习惯、并不适合本项目本次研究内容。
  最后我们进行了Cosine余弦值算法的研究并确定了最终的主要算法。向量空间模型(vector space model)操作比较简单,理论成熟,在众多有关文本的领域应用中都有非常好的效果。在这一模型中,文档被分成一个一个的词,从这些词中提取关键词代表这篇文档,用这些关键词形成一个n维向量,余弦相似度算法就是计算所有这些向量之间的夹角,余弦值越小说明夹角越小,那么说明两篇文档的相似度就越高,反之越低。我們认为向量空间模型的余弦相似度更合适。
  将“智行少儿科普问答平台”数据库中的所有文档,以人工添加的文档标签为对象,每两篇文档建立相应的文档标签空间向量,计算每两个向量之间Cosine值,即得出了基于标签的每两篇文档之间的相似度,并以此建立了一个N×N的Cosine值矩阵S,矩阵中行坐标与列坐标均表示文档ID,每个值Sij都表示文档ID为i与文档ID为i之间的两个向量的余弦值也就是两篇文档的相似度。
  由于标签数量较少,种类集中,在力导向图的显示结果中聚类效果比较明显。但无法体现各文档的普遍关联性以及相同类别文档的差异,我们继续进行后续研究。
  4.3关键词的提取
  关键词提取是为了建立文档空间向量,从而能基于文档内容计算文档相似度。提取文档关键词必然要切分文档,于是必然要借助中文分词技术。
  我们对比分析了多个中文分词引擎。由于NLPIR不支持PHP语言,SCWS不支持PHP5.4以后的版本,而本项目使用的是PHP5.6,最终我们选用phpanalysis2.0这一工具进行文档的中文分词。
  项目首先对分词结果进行了预处理,包括停用词过滤、同义化处理等。文章分词结束之后会存在大量重复的无用信息。在进行标签提取之前需要将停用词等无用信息过滤。随着知识图谱中文章实体的增加,提取出的标签会普遍存在同义词,若不进行同义化处理,会使得知识图谱中表意一致的文章因为标签的不同而无法进行关联,进而导致文章关联度受影响。
  本项目进行了停用词过滤,提高了文章分词标签提取的效率,对文章分词进行同义化处理,提高文章标签提取的准确性。
  选用TF-IDF算法从处理好的分词结果中提取关键词,通过计算“词频”(TF)和“逆文档频率”(IDF),将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,将所有词按TF-IDF值进行排序,排在最前面的几个词,就是这篇文档的关键词。
  具体实现过程如下:
  1)计算词频
  词频(TF)=某个词在文档中出现的次数
  2)计算逆文档频率
  逆文档频率(IDF)=log(全文档总数/包含该词文档数)
  如果一个词越常见,那么分母就越大,逆文档频率值就越小,反之,一个词越少见,逆文档频率值就越大。
  3)计算TF-IDF值
  TF-IDF=词频(TF)逆文档频率(IDF)
  依据此算法,项目成功对平台中的所有文档提取了关键词并保存到数据库中。
  4.4基于文档内容的知识图谱
  基于文档内容的关键词提取之后,就进行余弦相似度的计算。如何评价两篇文档的相似度大小,我们认为两篇文档的用词越相似,它们的内容也越相似。
  1)分词,前文已经叙述;
  2)提取两篇文档的关键词,前文已经叙述;
  3)列出两篇文档关键词的所有分词,作为标杆向量;
  4)对应两篇文档关键词与标杆向量进行匹配,匹配到的位置记1,未匹配的位置记0,写出两个空间向量。
  于是这就成为了计算两个向量的相似度的问题。我们可以先考虑平面几何向量,在一个平面上,两条线段之间形成一个夹角,如果夹角为0度,意味着方向相同、线段重合;如果夹角为90度,意味着形成直角,方向完全不相似;如果夹角为180度,意味着方向正好相反。因此,我们可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。而对于多维空间向量,其原理是不变的。
  上图的a和b是两个向量,我们要计算它们的夹角θ。假定a向量是[x1,y1],b向量是[x2,y2],那么可以将余弦定理写成下面的形式:
其他文献
国庆就要到了,去哪里玩?怎么玩?如果你文艺青年浪漫到骨子里,那么全长850公里的上海至青岛的路线适合你;
斯巴鲁的全系换代过程,让血液中原始的遗传基因悄然重组,尺码的加大,更多电控配置的融入——这些对于运动品牌来说绝非什么好事情。至此,我们开始对斯巴鲁的发展产生顾虑。斯巴鲁
在2019年5月5日更新的微信7.0.4新版本中,'漂流瓶'入口已经正式下线,意味着这一功能将进入历史。此前,腾讯宣布将关闭漂流瓶服务。其中包括微信漂流瓶和QQ邮箱漂流瓶
期刊
可能很多人都会认为北京现代ix35是一款全新型号的SUV,那么可能他们对于这款车的传承似乎不太了解。其实北京现代早前的一款小型公路SUV途胜,就是这款车的前身。而随着ix35将途
我在福建生活了19年,儿时的记忆中,喝茶是一种理所当然的习惯。
迈锐宝来到我们编辑部已有一段时间,我们之前从单车试驾、长途自驾游,以及综合分析等多个方面对这款车进行了全方位的评测。迈锐宝的第二代6档自动变速器调配得非常灵敏。在日
中国的能动司法是中国司法顺应时代挑战在工作思路和运作上对社会转型的积极回应。与此不同,司法能动主义是另外具有特殊语境和语义的司法理念和模式,它反映的是美国联邦法院
奔驰C级作为国内高端轿车品牌奔驰旗下,针对更多年轻客户市场来销售的车型,历来都是凭借其不凡的品牌影响力,和更容易让人接受的售价而在其自身所属的细分市场中,占有举足轻重地
我国公益性社会事业的治理仍是社会事业体制改革的焦点问题。市场经济体制下,政府要改变管办一体的社会事业治理模式,对国有社会事业组织要行使所有者职能,对所有社会事业组
对于学理工出身的王先生来说,任何事情都是可以通过严谨的规划来做出抉择的。所以,在为自己和家人选择。一辆座驾时,王先生也习惯性地表现出工作时的严谨,但选择过程并没有经过太