基于信息抽取技术的商业社会网络创建研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:huang_hh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网诸多种类的文本中,有一种以商业财经分析和股评信息为主题的电子文档,这些文档中涉及很多商业实体和商业关系。商业社会网络就是以该类文档为基础,利用文本处理技术构建的一种社会网络。结构化的商业社会网络是以商业实体为基础,通过商业关系联接在一起的复杂结构图,图中的节点代表商业实体名称,边代表商业关系。信息抽取是文本处理技术的一类,其目的是由无结构或半结构的文本中抽取出特定的信息,然后将已抽取的信息格式化并存入数据库,以供用户的查询和分析。本文主要利用信息抽取技术中中文机构名称识别和中文关系识别技术,结合财经文本的特点,实现了商业社会网络系统的自动构建。重点阐述了利用自然语言处理模型进行的商业实体名称的识别和以自扩展技术为基础的商业关系抽取。在商业实体名称识别中,首先利用分词和统计的方法,确定构成商业实体名称的不同词性分布,作为条件随机场的训练的特征;然后利用统计的方法确定商业实体的文本上下文特征;最后利用条件随机场综合已选择的特征,经过训练得到能够在自由文本中实现商业实体名称的语言模型。对CRF训练得到的语言模型采用N折交叉测试,商业实体全称的识别精确度达到了94.6%,召回率达到91.4%,平均F值达到92.9%。本文同样使用CRF对简称进行标记,采用基于单字特征训练得到新的识别模型,经过对该模型的N折交叉测试,识别精确度为93.4%,召回率85.6%,平均F值89.3%。为了实现商业实体关系的自动抽取,首先利用精确匹配方法将财经文本中已识别的商业实体显示标出;然后采用自扩展算法,在提供优良的种子集基础上,实现商业实体关系的提取。对抽取的结果采用随机抽取小样本和人工标注结果比对测试,抽取正确率达到了66.8%。
其他文献
现代远程医疗系统以视频会议技术为依托,结合现代医疗技术,在医疗专家与医务人员、医疗专家与病人之间构建起一个“面对面”的信息交流平台。该技术能够促进高水平医疗资源如
可编程逻辑控制器作为现代工业控制四大支柱之一,在各种工业过程控制及各类机电一体化设备控制中发挥着越来越重要的作用。随着计算机技术的发展,IEC61131-3标准的日益推广,
嵌入式系统的应用日益普及,目前已经呈普适发展的前景。同时人们对嵌入式系统的功能需求,也日益向更快的速度、更低的能耗、更强的数据处理能力等方向发展。满足不断增长的运
运动捕捉技术已经在数字娱乐、运动仿真等诸多领域得到广泛的使用。相较于传统的动画制作技术,运动捕捉技术在创建角色的逼真性以及制作方式的便捷性上有着显著的优势。但是
随着互联网技术和电子商务的迅猛发展,Web服务作为信息服务资源的具体实现之一得到了更为广泛的使用。Web服务因其跨平台、松耦合的特点,支持在不同语言,不同平台上进行有效
定位与地图构建是自主移动机器人的核心技术,但由于单纯码盘、惯导等航迹推演的定位方法存在累积误差,使得生成的地图一致性遭到破坏,给机器人自主移动带来严重隐患。机器人
可信软件技术的不断发展,迫切需要合理的可信评价体系来考查这些技术在提高可信性方面的贡献和效果。同时,可信性评价也为用户从众多软件产品中选取符合自己需求的软件提供重
延迟容忍网络(简称容迟网络,Delay-Tolerant Network)是一种通用的、面向消息的、可靠的网络体系结构,用于支持具有间歇性连通、高延迟、低数据传输率等通信特征的不同网络的
自然语言处理属于人工智能的一个领域分支,主要研究人类如何有效地运用人类语言与计算机进行通信,是一门融合了语言学、计算机科学与数学于一体的科技。自然语言处理包括浅层
随着数据库和网络技术的不断发展进步,我们生产和搜集数据的能力有了大幅度的提高,数据量成指数级的增长,面对庞大的数据量,数据挖掘技术变得越来越重要。  关联规则挖掘作