领域文本句子基本概念结构抽取研究

来源 :华东交通大学 | 被引量 : 0次 | 上传用户:cangxialong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本作为人们使用语言交流的重要媒介之一,在人们的历史活动中发挥了至关重要的作用。文本表示作为机器对文本理解处理的第一步,也显得越来越重要。当前语义表示方法,主要是以词语或句子为基本单位,这种处理方式与人类理解语言的方式相违背,效果一直差强人意,因此,模拟人类理解自然语言的方式,提取句子中的关键信息,构成句子的基本概念结构,并尝试使用这种概念结构来进行语义表示,是一种潜在的研究途径。在研究方法方面,现存的一些自然语言处理方式正逐渐由以前的基于规则的方式,向当前基于统计的处理方式发展,而在未来,如何利用互联网提供的海量数据,在大数据背景下使用计算机智能算法实现对文本的表示和语义的挖掘,渐渐成为人们研究的热点和方向。本文首先研究了文本处理中的一些基本步骤,介绍了一些过去的文本表示方法和语义挖掘中常用的算法模型,对一些常见的分类模型,包括朴素贝叶斯算法,支持向量机,K近邻分类算法,以及深度学习领域很热门的深度信念网络模型等,也进行了研究。之后结合文本表示中概念图的相关理论,提出面向中文领域文本表示的中文语义组块,旨在结合中文语义组块完成对文本句子概念结构的抽取。实验方面,本文通过构建以支持向量机为核心算法的半自动化语料库生成模型,构建出中文语义组块在科技评审领域的相关语料库,最后本文研究了以深度信念网络为代表的深度学习模型,结合本文构建的语料库,研究了大数据背景下深度学习算法在中文语义组块自动抽取方面的可行性,并构建相应的模型,通过比较不同算法下中文语义组块的抽取结果,验证了深度学习算法在文本抽取领域的良好效果,为自然语言处理的文本表示方面提供新的思路。
其他文献
由于资源储备量有限,现代化进程加快,世界范围内出现资源供需不平衡的现象。为响应习总书记绿色发展的口号,促进能源结构的优化和升级,应该采用基建周期短,蕴量巨大的绿色能源,风能恰好具有上述优势。源文本分析外部不稳定因素对于风能的影响,并提出概率方法来提高风能利用率,为加快经济方式的转变提供科学指导。通过此类篇章的翻译,读者可以学习外国先进有效的评测方法,服务于我国能源产业的发展。本英译中笔译实践报告的
射频识别(Radio Frequency Identification,RFID)是一种自动识别技术。相对于条形码技术和磁条技术来说,RFID具有识别距离远、识别安全性高等优点,目前大量应用于仓库管理、
房地产市场的快速扩张为家居定制行业的发展迎来了新的契机,尤其是2016年4月份以来,房地产市场暴涨势头异常迅猛。进入2017年后,一线城市房地产增长速度虽然放缓,但三四线城
数据挖掘是指从大量复杂数据中寻找和提取有用规律,形成有用模式,得到价值的过程。随着现代科技水平的发展,尤其是近年大数据概念的提出,我们正进入一个数据资源极其丰富的时
缆索表面的健康状态与缆索的使用寿命息息相关。对缆索表面进行有效的检测是桥梁维护工作的重要内容。传统的人工检查方法效率低、成本高,而且会给工作人员带来较大的安全隐
输电塔-线体系作为高压电能输送的载体,是重要的生命线工程。高压输电塔-线体系具有塔体结构高耸、跨距大和带有柔性的特点,在风、雨等外力载荷作用下,其塔耦合振动响应十分明显。在我国,目前对输电塔线体系系统的在耦合作用下理论研究还不够深入,导致在外界载荷作用下倒塔情况时常发生,严重影响了输电线路安全。因此,建立输电塔-线体系结构气弹模型并进行模态分析,对其进一步从理论上和试验上进行深入研究就具有重要的工
PPP模式通过吸引社会资本在基础设施建设的投资,在一定程度上改变了政府建设项目的单一财政投资主体的问题,起到了减轻地方政府财政压力,分散化解地方政府债务风险,拓宽城镇
惯性导航是一种实时更新载体位置、速度和姿态信息的过程,通过利用加速度计和陀螺仪的测量信息来进行导航解算。本文重点针对基于激光陀螺的捷联惯导系统的系统级标定及初始
近年来,以低成本、低功耗为特点的无线传感器网络(Wireless Sensor Networks,WSNs)技术,被广泛应用于科学研究、灾害预警、环境监测、战场监视、智能交通、工农业生产等领域,
信息隐藏技术是一种将秘密信息嵌入到文本、音频、图像以及视频等数字媒介中的技术。信息隐藏技术应用于多个领域,由于隐藏的信息能避免攻击者的注意,从而实现对隐藏信息的保