特定本体指导的信息抽取技术研究

来源 :第九届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:nickymin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。Ontology作为领域知识的共同理解,能有效的解决现在信息抽取所面临的主要挑战──知识工程的瓶颈问题。本文首先采用自顶向下的策略,根据三层本体框架结构来构建了一个本体,并利用基于WordNet的语义相似度计算方法获得领域内的相关概念的实例。然后将实例添加到词典,应用到语法分析中,实现对领域Ontology内特殊词汇的标注,最后利用Ontology的概念、关系建立事件模板对文档进行语义标注与抽取。
其他文献
本文利用条件随机场模型实现了一个金融领域到通用新闻领域的中文命名实体识别系统领域扩展方案,并对如利用分词和词性标注信息进行了深入的研究。原系统针对金融领域,在分词
会议
谷物中通常以淀粉的形式储存能量,淀粉由直链淀粉和支链淀粉组成.在胚乳中,支链淀粉生物合成中涉及二磷酸腺苷葡萄糖焦磷酸化酶(ADP glucose pyrophosphorylase,AGPase),可溶
本文主要考察只有规模很小的标注语料可用时,如何进行产品特征的自动识别。特别地,产品特征应按句子进行识别,因此识别过程可看为二元分类问题。本文中产品特征候选用二值向
会议
本文主要介绍"基于WEB的计算机领域新术语的自动检测"算法的设计和实现。随着计算机技术的迅猛发展,英语中每天者会出现大量的该领域的新术语,如何将这些新兴术语及时发现并
本文提出了一种从小规模语料中提取术语概念关系的方法。其基本思想是利用关系所关联的术语的共性而非术语对的共性提取关系。基于此想法。我们提出了两个假设。以它们为前提
We provide a review of our recent 100-Gb/s, high spectral efficiency (SE) experiment targeting transoceanic and regional undersea transmission distances. We dem
本文研究的主要目的是针对生物医学命名实体的特点开发使用有效的特征集合,并结合使用不同的信息资源,以提高基于特征的机器学习方法识别生物医学命名实体的性能。本文详细分
会议
在庆祝偉大的十月社会主义革命四十周年的节日里,我們怀着感激的心情想起这一偉大国家对我國的真誠友誼和無私帮助;也使我想起了和苏联?覀兿啻θ兆又械闹种只匾浜吞寤帷?在
本文介绍了一种SVM和基于转换的错误驱动学习相结合的生物实体识别方法。该方法首先通过抽取较为丰富的特征集合如单词特征、词性特征和词形特征等,使用GENLA语料对SVM分类器
从生物医学文献中抽取蛋白质(基因)相互作用关系对蛋白质知识网络的建立,蛋白质关系的预测,新药的研制等均具有重要的意义。本文提出了一个生物医学文献中的蛋白质相互作用关
会议