文本资源的知识抽取研究

被引量 : 0次 | 上传用户:jiangyongan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的广泛应用以及互联网的广泛发展,信息资源正爆炸性地增长。其中,80%的信息资源是以自然语言描述的文本形式存在,如何在海量的文本数据中获取最有效的知识,如何解决信息泛滥和知识贫乏的矛盾,是知识抽取研究的目标,而自然语言处理是解决这一问题的关键技术。首先,本文给出了文本资源的知识抽取这一课题提出的背景和国内外研究现状。明确了研究对象是非结构化的自由文本,研究目标是从非结构化的自由文本中抽取知识,涉及了自然语言处理和文本挖掘等领域的相关技术。并概括和分析了国内外一些文本知识抽取的相关系统,和此领域的研究历史和发展趋势。其次,总结了文本知识抽取方面涉及的关键技术,包括自然语言处理、中文分词、相似度算法和常用的语义词典。从理论上提供了本文针对研究对象实现研究目标的理论基础。在此基础之上,提出了文本知识抽取模型,包括定义文本知识的概念,分析文本的物理结构和逻辑结构,介绍Web文本转变为普通文本的方法,实现文本知识的关键词抽取和主题句抽取。关键词通过文本预处理、词语过滤、统计词频、短语合并、同现分析、特征值计算六步实现抽取目标;而主题句采用了“先分割,后抽取”的思想,通过TextTiling技术将文本分割成为一定数量的主题包,然后在每个主题包内通过句子关系图抽取主题句,即抽取主题包内覆盖最广,最能代表作者思想的句子作为主题句。最后,设计并实现了一个基于NLP的文本资源知识抽取系统,然后选用公开的语料库进行了实验验证前述模型的有效性,并深入分析了实验结果。本文旨在建立一个文本资源的文本知识抽取系统。针对文本资源尝试用NLP(自然语言处理)技术,在经过中文分词、词性标注、相似度计算等过程后,从文本资源的语段中抽取关键词和主题句作为文本知识,然后把用自然语言描述的文本知识通过统一存入知识库中,一方面促进对文本的理解,另一方面使知识服务、知识推理和知识创新成为可能。
其他文献
山东省聊城市是传统的农业大市,下辖6个县1市1区及一个省级开发区,面积8715平方公里,农业种植面积达800万亩。全市总人口590.68万,其中农业人口约428万人,新农村建设对聊城的
背景与目的大肠癌是非常常见的消化道恶性肿瘤之一。随着人们生活习惯的不断改变,近年来我国大肠癌的发病率呈现上升趋势,目前最有效的治疗手段仍是尽可能的手术切除。但大肠
传统中医认为,痤疮的发生发展与五脏密切相关。从病因病机方面归纳五脏与痤疮的关系:肝失疏泄、肝郁化火;心经热盛、气阴两虚;脾胃湿热、郁结肌肤;肺经血热、郁于肌表;肾阴不
目的观察暖宫种子汤对多囊卵巢综合征(polycystic ovarian syndrome,PCOS)促排卵的临床疗效。方法收集符合PCOS纳入标准的患者90例,随机分为暖宫种子汤(A组)、克罗米芬组(B组
目的评价中医辨证治疗慢性咽炎的疗效。方法根据有关诊断标准、病例纳入标准、中医辨证标准、疗效评价标准,对确诊为慢性咽炎的90例患者,以中医辨证论治方法分为三型随症加减
音乐喷泉就是通过音乐的播放,使喷水的造型和灯光的色彩随音乐节奏的改变而改变,带给人们视觉和听觉上的双重艺术享受,是一种园林建筑和音乐欣赏相结合的产物。随着人们生活
以豆干为原料,通过单因素试验及L9(34)正交试验对即食五香豆干生产工艺进行了优化。试验结果表明:新鲜的豆干熬煮液比例为1∶10,熬煮液调味料配方为:盐0.7%、肉桂0.4%、大茴
2004年7月,国务院发布了《关于投资体制改革的决定》,明确指出通过加强政府投资项目管理,改进项目建设实施方式。6年来,我国政府投资项目代建制有了雨后春笋般的发展。已经逐
随着社会经济的快速发展和物质生活的极大丰富,人们对精神生活开始更高的追求。特别是进入20世纪90年代,我国社会经济水平进一步提高,社会各阶层都开始对满足人类精神文明的
1866年,清政府派遣斌椿使团,第一次对欧洲进行游历考察。然而,学界关于斌椿之行存在一些争议。本文研究发现:一、斌椿使团应是中国近代派往西方的第一个考察团而非外交使团;