基于词向量的基础教育资源领域概念及关系抽取研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户：hakhid

【摘要】

：

目前，类人智能在全球蓬勃发展，比较有代表性的项目有日本的Todai Robot项目——目标是让机器人参加高考并取得高分，IBM的Waston项目——已经拓展至医疗等领域，这类类人智能项目对

【作者】

：

刘雅梦

【机构】

：

武汉理工大学

【出处】

：

武汉理工大学

【发表日期】

：

2015年期

【关键词】

：

词向量基础教育资源关系抽取 K-means聚类方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前，类人智能在全球蓬勃发展，比较有代表性的项目有日本的Todai Robot项目——目标是让机器人参加高考并取得高分，IBM的Waston项目——已经拓展至医疗等领域，这类类人智能项目对教育、医疗等行业帮助巨大。然而这些类人智能项目的成功应用离不开完备知识库的支持，因此拓展类人智能项目的知识库，对提高其智能水平至关重要。以“文综”为代表的基础教育资源，蕴含了丰富的知识，故研究如何从海量的基础教育资源中获取丰富的语义信息，并构建基础教育领域本体知识库，对构建类人智能产品具有重要意义。　　本文依托863项目“面向基础教育的类人智能知识理解与推理关键技术”（2015AA015403）对知识抽取的两个核心任务——领域概念及概念间关系抽取进行了研究。主要研究工作如下：　　1）设计了基于 F-M-E的合成词抽取算法及基于词频分布状态的领域概念抽取算法。针对领域概念被分词工具错误切分的情况，结合词性和语言模型的统计特征，设计了基于F-M-E的合成词抽取算法（F指词频，M指互信息，E指信息熵）进行合成词的抽取，保证了领域概念的完整性；针对低频领域概念漏抽取及高频非领域概念被错误抽取的情况，根据领域概念与非领域概念分布状态的差异，设计了基于词频分布状态的领域概念抽取算法并对历史领域概念进行了抽取。　　2）设计了基于词向量语义相关度的领域概念对获取算法。本文利用基于神经网络的Word Embedding方法将文本语料的语词映射到低维词向量空间，用向量间的距离表征语词之间的语义相关度，不仅能扩充领域概念集，还能找出语义相关的概念对。　　3）设计了基于语义相关度的扩展关联规则非分类关系抽取算法。针对基于关联规则的关系抽取算法仅根据语料的统计量特征抽取具有关联关系的概念对的情况，设计了基于语义相关度的扩展关联规则非分类关系抽取算法，该算法在基于关联规则算法的基础上添加了语义相关度这一评价标准来进行概念对的抽取，并利用词向量和K-means聚类方法对关系标签进行名词扩充并将其分配到相应的概念对上，最后得到概念对关系标签三元组的非分类关系集合。　　本文提出的面向基础教育资源的领域概念及关系抽取方法具有较高的性能和较强的实用性。利用该方法抽取的领域概念集及领域概念关系集不仅可以用于构建相应的领域本体知识库，在一定程度上实现了自动化，而且还可以应用于语义检索、文本摘要、知识图谱、问答系统等其它领域。

其他文献

若干艺术风格化算法的并行化研究

点云艺术风格化是近几年来计算机图形学中的主要研究内容。由于非真实感渲染算法本身比较复杂，计算量巨大，尤其当这些算法被应用到视频渲染领域时，计算效率低的问题将变得犹为突

学位

点云模型艺术风格化视频渲染并行处理网络计算非真实感渲染

基于SVM的图像分类与检索技术的研究

随着网络的普及和多媒体技术的发展,图像分类与检索技术成为近来需求和研究的热点。本文研究了基于内容的图像检索的相关技术,主要包括颜色和纹理两方面的视觉特征描述和提取

学位

基于内容的图像检索支持向量机图像分类相关反馈

遗传算法在地区电网无功优化模块中的应用

无功优化是保证电力系统安全、经济运行的一种有效手段,是降低网络有功损耗、高电压质量的重要措施。电力系统无功优化问题的研究,既有理论意义,又具有实际用价值。电力系统无功优化是一个多变量、多约束的混合非线性规划问题,其操作变量既有续变量又有离散变量,其优化过程十分复杂。遗传算法是一种基于自然选择和遗传机的搜索算法,比较适合于求解电力系统无功优化问题。本文介绍了电力系统无功优化域的研究现状及其发展,建立

学位

无功优化改进遗传算法混合编码数学模型

基于Linux平台的智能手机软件设计与实现

基于Linux平台的高端智能手机是Cellon International公司C8000手机平台项目。采用Linux操作系统的理由是降低智能手机的生产成本。Linux开发起来最大的特点是从根本上开放源

学位

Qt/Embedded信号与槽事件Berkeley DB

改进的蚂蚁算法在TSP问题中的研究

TSP问题(Traveling Salesman Problem)是一个组合优化方面的问题,己经成为并将继续成为测试组合优化新算法的标准问题。从理论上讲,使用穷举法不但可以求解TSP问题,而且还可

学位

蚂蚁算法TSP问题信息素

嵌入式数据采集系统的研究与开发

设备故障诊断是一门新兴的交叉工程学科,它可以确保设备运行的稳定性,提高故障预知性维修的准确率,极大降低了设备故障风险和生产维修成本,为工业应用带来了巨大社会和经济效

学位

嵌入式系统故障诊断数据采集设备驱动

基于FPGA的语音识别技术研究

许多已有的语音识别系统都是基于计算机软件的。但现在很多应用却要求体积压缩,方便携带和低功耗。所以基于集成电路的语音识别专用芯片有广阔的发展空间。当前语音芯片都采

学位

语音识别FPGA隐马尔可夫模型MFCCViterbi

视频扫描表头识别系统的研究与实现

本课题在对仪表识别系统结构、图像预处理技术、Hough变换算法和神经网络的研究基础上,设计了图像预处理流程,实现了图像预处理算法,对Hough变换算法和BP算法进行了改进。设

学位

视频扫描仪表识别Hough变换神经网络BP算法

城市公路隧道排水系统的故障检测方法研究及应用

目前隧道排水系统主要功能是对隧道排水系统运行时数据的采集和隧道排水系统可控设备的控制，尽管功能丰富，但是对于排水系统的故障检测部分却过于简单，大多是依靠人工或者单传感

学位

模糊理论神经网络故障检测隧道排水系统

面向高可维护性二手车管理系统的重构方法研究

随着我国市场经济体制的不断发展，我国二手车产业正处于迅猛发展阶段。功能完善的二手车信息管理系统，在规范业务流程的同时，还可以有效地提高二手车业务人员的工作效率，从而促进

学位

二手车业务管理信息系统架构设计遗产系统重构面向服务架构

基于词向量的基础教育资源领域概念及关系抽取研究

与本文相关的学术论文