从百度百科挖掘领域知识相关度

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:xiamen88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会发展的多元化,跨领域跨专业的研究已成为当今社会发展的内在需要。这是因为很多问题都无法通过单一学科的研究来解决,跨领域研究将是未来科学发展的重要趋势。但是,现在要确定哪些学科具有结合的价值只能由领域专家在经过对本领域的深入研究并触及到其它领域的知识之后才能发现。这种发现具有一定的随机性,而且进展缓慢。因此,基于一个可靠的领域知识库并利用计算机的高速处理能力对其进行分析处理和数据挖掘,以找出领域间的可能联系是一个值得研究的新问题。  在这样的背景下,本文提出了从百度百科这个在线的中文知识百科全书的知识库中挖掘知识之间的联系,计算知识领域间相关度的一整套方法。使用Web爬虫和HTML解析器从百度百科这个免费的中文百科全书中抽取数据,构建领域知识库,经过ICTCLAS分词系统分词后将每篇文档用向量空间模型进行文本特征表示,进而可以获得领域中各个知识点之间的关联矩阵,利用这个关联矩阵,可以计算出各个知识点在领域中的权重,从而将一个领域表示为特定的向量空间中的一个点。由于不同领域所在的向量空间不同,所以需要将它们扩展到一个公共的向量空间中计算向量的相似度也就是余弦夹角,即本文所要计算的两个知识领域的相关度。  自动化的领域相关度计算方法可以辅助发现领域间的关联,加快不同领域间知识的融合。算法中提出的知识权重的概念,可以帮助新进入此领域的学习者辨别基础知识和重点知识,从而提高知识获取的效率。
其他文献
地质灾害是自然灾害的一种,是在地质作用下,地质自然环境恶化,造成人类生命财产损毁或人类赖以生存和发展的资源、环境发生严重破坏的现象或过程。当前,世界各国正遭受着前所未有
近年来不断涌现的产品质量事件引发了人们对质量管理的新思考。随着经济全球化的发展,业务外包和横向一体化的趋势越来越明显。消费市场中的一件商品通常由供应链上的多个企业
随着农业学大寨普及大寨县的群众运动深入发展,夏谷面积正在迅速扩大。在我省年平均温度12度,雨量六百毫米的中南部如邯郸、邢台、石家庄、保定四个地区,基本上实现了麦谷两
To improve retrieval accuracy, this paper studies wave effects on retrieved wind field from a scatterometer. First, the advanced scatterometer(ASCAT) data and b
在全国第二次农业学大寨会议精神鼓舞下,今年我区小麦播种工作的突出特点是领导重视,措施有力,工作搞得比较细致扎实,从现在看,只要多方面的工作跟得上去,取得全苗、匀苗和
项目管理是以项目为对象的系统管理方法。其自20世纪80年代被介绍到我国以来,已发展成为了一门热门学科,并被应用在许多传统行业,收到了很好的效果。信息安全风险评估项目是个新
在毛主席的无产阶级革命路线指引下,青村公社推广站和姚家十队科技组75年以来,就地取材,土法上马,利用仓库场搭尼龙棚,大搞早稻绿肥茬温室育秧,取得了可喜成果。两年试验,平
近年来,我国在享受着改革开放及全球一体化带来的经济快速发展的同时,也面临着一些前所未有的社会问题,而社会人口老龄化就是其中突出的代表性问题。在老年人口众多,所占比例增大
副刊,作为报纸的组成部分,它同样肩负着宣传马克思列宁主义、毛泽东思想,宣传党的方针政策,用共产主义思想、爱国主义思想教育人的重任。好的副刊,应当是建设社会主义精神文
制造业在国民经济中具有重要作用,对于制造企业的计划、生产、组织、协调等多方面的研究正逐渐趋于成熟。这些研究结果在制造企业中的广泛应用也对制造业的发展起到了推动作用