领域文本知识获取方法研究及其在考古领域中的应用

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 14次 | 上传用户:wangxun416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代,信息爆炸,全球一体化,使信息的来源、数量和形式发生了根本的变化。如何用智能化的手段处理网上的海量文本信息已成为一个十分紧迫的问题。将信息转变为知识、将信息基础设施发展为知识基础设施是二十一世纪的重要科研方向,旨在实现“在恰当的时间,以恰当的语言、恰当的粒度,将恰当的信息提供给恰当的人们”的目标。当前最热门的领域之一是“文本挖掘”,即从巨量的非结构化文本中抽取信息。这就为文本知识获取提出了新的挑战和迫切需求。本文主要针对领域概念获取、领域概念上下位关系学习、描述流提取、领域个体知识获取的方法,以及它们在考古领域中的应用,开展了如下几个方面的研究工作: (1) 一种提取领域概念的混合式方法。目前,在信息检索、文本分类、主题跟踪和探测等文本处理和分析任务中,通常是以“词”作为特征项的。然而这些词并不一定能忠实地表达文本的内容、类别和主题。这一问题在处理领域文本时显得尤为突出,已经阻碍了文本处理任务的发展。领域概念首先是一个词,并为实体概念、或性质概念、或关系概念。领域概念能够更加准确和忠实地表达文本的内容。本文的混合式方法融汇了规则、统计、句法和语义信息来识别概念。该方法首次引入主动词和语义角色识别来提取领域概念,提出了基于语料学习的主动词识别方法,设计了主动词和面向知识获取的语义模型驱动的语义角色识别方法。通过与分词系统实验结果相比,验证了该方法的有效性。(2) 多策略的领域概念上下位关系学习方法。领域概念上下位关系学习是指基于已构建的上下位关系概念对来学习未知的上下位关系概念对。本文提出了三种学习策略:种子上下位关系概念对驱动和并列语境启发的学习方法、基于上下位关系语境的学习方法,以及领域概念构词法驱动的学习方法。前两种方法是根据上下位关系概念对所处的上下文来提取的,第三种方法是根据概念的内部构成规律来提取的。这些方法是由学习Agent来完成的,它由已知知识、学习条件和获取知识三部分构成,采用框架和一阶逻辑表示,因此学习Agent具有良好的扩展性。(3) 一种领域本体驱动的描述流提取方法。通过信息检索、文本分类和主题检测和跟踪等文本处理和分析等任务,我们能够了解文本的内容。但是,我们仍然难以知道文本描述了主题的哪些方面以及它们的描述顺序。因此,我们提出了一个新的文本分析任务——描述流提取。描述流是指文本的主题、主题的描述方面以及它们出现的偏序关系。本文采用了一种领域本体驱动的描述流提取方法,描述流提取是为领域个体知识获取服务的。通过实验验证了该方法的可行性。
其他文献
<正>民生新闻的发展、演进经历了怎样的路径?"大民生"新闻的探索有着怎样的实践意义?新世纪初,以"南京零距离"开播为标志,在中国掀起了一股电视民生新闻热潮。回顾上世纪80年
根据纯化得到的(R)-专一性羰基还原酶(rCR)蛋白质测序结果推导出的核苷酸序列设计引物,以筛选得到的近平滑假丝酵母(Candida parapsilosis)CCTCC M203011基因组为模板,通过PC
<正>在中国,重庆无疑是地域性格最为鲜明的城市之一。重庆人刚烈、忠贞、耿直的性格特点,和这里的"麻辣"火锅一样,广为人们所津津乐道。无论是江姐为代表的红岩精神,还是经受
对福建省试点城市城镇居民进行调研发现:居民对基本医疗保险制度的认可度较高,参保群体开始受益,续保意愿较强;但对制度认知度较低、受益率不高等问题制约了居民参保续保。其
<正>在学校对学生进行性教育并不是今天才提出的话题。早在20世纪二、三十年代,张竞生、周作人和潘光旦等"五四运动"的先驱,同时也是我国性教育的先驱,就已经开始主张开展性
锚杆作为一种行之有效的、经济优越的支护技术,已经在岩土工程中得到了大量的使用,而锚固方面的研究工作主要还停留在理论和模型实验上。目前数值模拟技术的迅速发展,为锚固
人称指叙述者以一个具体身份出场或发言,它代表或反映出电视叙事叙述者的态度;视角是叙述的焦点,是一部电视叙事作品看取世界的特殊眼光和角度,也是一部电视叙事作品希望被“
21世纪是知识经济的时代,创新是知识经济的灵魂,其重要性已经被越来越多的人们所认识。建立和完善区域创新系统,可以实现区域创新,推动产业结构优化升级,促进区域经济发展,形成区域
20世纪中叶,中国地质学尤其是大地构造学发展壮大的过程中,出现了一次学术繁荣的局面。虽然这次争鸣持续的时间很短,其意义也不能与春秋战国时代的百家争鸣相比肩,但其产生的
背景:面对众多的新老健康问题,有限的卫生资源如何分配?这是WHO和各国政府面临的共同困惑。疾病负担研究是确定卫生工作重点与优先的重要依据,有利于优化卫生资源配置和提高人类