基于非结构化数据的多类型网络构建研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:cxxxcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
企业信息化与互联网的发展促使非结构化与半结构化数据不断增加。针对海量非结构化与半结构化数据进行挖掘分析成为近年来研究的热点。复杂网络与中文信息处理的最新研究成果为非结构化和半结构化数据挖掘提供了一个新方法和视角。即将中文信息处理技术与网络构建技术相结合,采用中文信息处理技术抽取非结构化数据中包含的信息,并构建网络进行分析,进一步挖掘其潜在信息。分析复杂网络在不同领域的应用,其主要包括两个阶段:网络构建与网络分析。网络构建是指从实际应用数据中,建立个体之间相互联系,构建关系网络。这是复杂网络应用的基础与关键。因此本文将以非结构化数据为对象,研究利用中文信息抽取技术构建多类型网络。首先,本文对文本聚类进行研究,并将其应用到数据集划分中,将数据集划分不同领域或主题的子数据集。通过对传统文本聚类的实现与分析,将复杂网络中的社区划分算法应用文本聚类中,实现基于社区划分算法的文本聚类,并取得一定的效果。其次,本文采用中文信息抽取技术抽取非结构化数据包含的实体相关信息。由于网络构建中边的重要性,本文主要对实体关系抽取进行研究。对传统的无监督聚类实体关系抽取算法中的实体对上下文信息收集以及实体对聚类两阶段进行改进,更快、更好的抽取非结构化数据中包含的实体关系。同时针对单文档以及稀疏文档集,本文实现了基于事件框架的实体关系抽取,以抽取用户指定的特殊实体关系。再者,通过比较复杂网络在不同领域的应用,分析与总结出常用的网络类型,即同质、异质、动态网络。根据非结构化数据的信息元素的多维性,从不同的视角与维度出发,构建了文档-文档关系网络、文档-实体关系网络、实体-实体关系网络以及动态网络。最后,设计并实现多类型网络构建原型系统,将本文中的研究内容融入其中。分别对各研究内容与原型系统进行实验,以验证其有效性。
其他文献
胶囊内窥镜发明后,就一直在临床应用中被不断推广。虽然胶囊内窥镜能够有效的探测人体消化道内大病症,但是始终无法满足医生主动控制胶囊去探测小区域病症的要求。主动接近可
绵延的红水河自贵州奔腾而下,经过了六百余里水路之后,河水却陡然停止,形成气势磅礴的岩滩电站,记者要采访的对象覃伯群就在这库区包围的群山中——大化瑶族自治县岩滩镇下皇
农村基层党组织作为党在农村全部工作和战斗力的基础,是推进社会主义新农村建设的政治保障。加强农村基层组织建设既是新时期党的建设新的伟大工程的重要内容,也是建设社会主
2008年8月9日,是解放军出版社原顾问黄涛88周岁的生日。但就在这一天,他走了,永远地离开了我们,离开了他一生执守“为英雄歌唱”的革命和军事史传事业。这位17岁就加入中国共
中共上海市普陀区委深入贯彻落实党的十七大精神,忠实践行党全心全意为人民服务的根本宗旨,拓展联系服务群众的途径,丰富联系服务群众的内容,畅通群众表达意愿 Putuo Distri
期刊
伴随近几年高校规模的不断扩大和教育制度的不断完善,高校党政办公室管理工作强度逐年增加,其复杂性和多样性使得高校办公管理工作的信息化和网络化势在必行,开发高效的基于
隆德县位于宁夏回族自治区最南端、六盘山西麓,陕甘宁三省(区)三角地带中心,312国道横贯全境,是西北联系华中、华南、华东的交通枢纽,故有“关陇锁阴”之称。全县辖3镇10乡,1
随着搜索引擎和万维网的飞速发展,快速增长的网络信息在供人们分享和获取的同时,也催生了大量的搜索引擎作弊行为。搜索引擎作弊是指利用各种手段欺骗搜索引擎排序算法,从而
时下,“走光”与“露点”的新闻在网络上的出现频率颇高。一些网站或小报的娱记瞪大了眼睛端着摄像机或照相机,拍下女明星或节目主持人的隐私,再配上文字发到网上。“走光”
在高等教育飞速发展的今天,文献信息资源的保障能力对高校的教学和科研水平起着决定性的作用,其中数字文献信息资源所占的比例在日益增大,读者利用数字文献资源的习惯也在逐
学位