异构数据文本挖掘技术研究

来源 :中国管理信息化 | 被引量 : 0次 | 上传用户:lipeng632
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 本文主要研究基于自然语言处理技术和数据挖掘技术,面向出版行业,对海量、异构的数字出版文本内容进行智能分析与挖掘,研究与实现命名实体识别与语义关系抽取、自动摘要提取、自动关键词提取、自动分类、自动过滤、自动消重、话题检测与追踪、情感分析等关键技术,为资源的编辑、加工、整理提供帮助,为知识标引和素材推荐等提供技术支撑。
  [关键词] 出版;文本挖掘;异构数据
  doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 21. 070
  [中图分类号] TP311.13 [文献标识码] A [文章编号] 1673 - 0194(2017)21- 0164- 02
  1 背 景
  数字出版已经成为出版行业的一种趋势,将逐渐取代传统出版方式。数字出版所产生的大量数字内容需要进行智能管理和自动加工,而其中文本数字内容数量最多,包括报纸、期刊、图书等出版类型,对文本数字内容的智能加工与挖掘技术是数字出版领域的关键基础技术,对数字出版多个子系统起到平台支撑作用。例如,文本分类技术可以将数字内容按照行业分类体系自动归类,文档自动摘要技术可以将数字内容进行提炼和标引。这些技术能帮助出版行业单位对数字资源进行明晰化、系统化、智能化的管理,自动发掘潜在的知识规律,替代人工劳动,提高了生产效率。
  目前,文本挖掘技术已经被广泛应用于互联网搜索与服务行业。主要采用的技术包括网页信息抽取技术、网页聚类技术、日志挖掘技术等,其目的是通过对互联网网页、用户日志等数据进行分析,改善搜索效果和提高用户体验。然而,与互联网搜索领域不同,数字出版领域的数字出版物形式多样,包括期刊、报纸、书籍等等,不同类型的出版物具有不同的篇幅与结构。传统的文本挖掘技术已不能满足对数字出版领域数字内容的智能化处理与分析需求,因此亟需研发面向数字出版领域的文本挖掘技术。
  2 大数据文本挖掘技术研究现状
  基于自然语言处理技术和数据挖掘技术,面向数字出版领域的文本挖掘技术,对异构出版内容资源内包含的知识体系进行抽取和挖掘,为资源的编辑、加工、整理提供帮助,为知识标引和素材推荐等提供技术支撑。一方面,对已有文本挖掘技术(例如基于条件随机场的序列标注技术、基于支持向量机的分类技术等)进行升级改造,以满足数字出版行业的技术要求;另一方面,针对新的技术需求,研发文本挖掘创新技术(例如开放式实体关系抽取技术、基于图学习模型的摘要和关键词统一抽取技术、非规范文本的情感分析技术等)。
  文本挖掘成果的处理对象主要针对新闻文本类型,无法处理数字出版行业所产生的异构数字内容,例如对科技文献和书籍进行自动摘要的难度要远大于对新闻文档的自动摘要,因此这些已有的文本挖掘技术已经打下了一个坚实的基础。
  3 异构数据文本挖掘技术目标
  基于自然语言处理技术和数据挖掘技术,面向出版行业,对海量、异构的数字出版文本内容进行智能分析与挖掘,研究与实现命名实体识别与语义关系抽取、自动摘要提取、自动关键词提取、自动分类、自动过滤、自动消重、话题检测与追踪、情感分析等关键技术,为资源的编辑、加工、整理提供帮助,为知识标引和素材推荐等提供技术支撑。本课题研发的技术将作为数字出版行业的关键支撑技术,为多个相关子系统提供服务。
  面向新闻的命名实体识别技术、传统的文档摘要与关键词抽取技术、面向简单分类体系的文本分类技术、基于高维索引的文本相似搜索技术、基于规则的文本过滤技术、基于聚类的主题检测技术、基于查询的主题追踪技术、新闻规范文本的情感分类技术。
  4 异构数据文本挖掘技术路线
  异构数据文本内容文本挖掘技术划分为三个层次:引擎层、服务层以及应用与管理层。
  4.1 引擎层
  引擎层包括各项文本挖掘的基础功能,实现文本挖掘的核心算法。
  (1)命名实体识别,识别出文本中出现的专有名称和有意义的数量短语并加以归类。
  (2)实体关系抽取,识别一个文档集内存在联系的实体,并抽取适当的短语描述它们之间的关系。
  (3)自动关键词与摘要提取,为给定的一篇或多篇文档自动提取若干反映文档主要内容的关键词;在符合长度要求的限制下,抽取若干反映文档主要内容的若干句子组成摘要;以及针对用户特定查询的相关文档集,生成描述这些文档与用户查询相关的摘要。
  (4)自动分类,依据文档内容,按照预先指定和训练的分类体系进行自动分类。
  (5)文本过滤,根据用户设置的敏感规则对文档进行过滤,并特别针对互联网中出现的各种隐藏的敏感内容的手段加以识别。
  (6)文本消重,提供海量文档的快速相似判断功能,为版权保护、学术不端行为检测等系统提供支撑。
  (7)话题检测与追踪,在没有话题的先验知识的情况下从信息流中实时自动检测出各个话题及其相关的文档;以及通过若干篇相关报道学习话题内容并在信息流中跟踪其后续相关报道。
  (8)情感分析,以自然语言处理技术和文本挖掘技术为基础,重点研究对用户评论文本的情感语义计算核心技术,提供文本情感倾向分析、情感要素抽取功能。
  4.2 服务层
  服务层包括功能接口和数据接口及并发控制模块。功能接口对引擎层提供的各项文本挖掘功能进行封装,与出版企业服务总线相连,为工程其他系统提供服务,同时还开放配置接口以便管理工具和其他系统能够根据需要调节文本挖掘系统参数。数据接口封装数据库、本地文件、网络数据流相关输入输出操作,为文本挖掘模块提供统一的数据处理接口。数据监视器根据定时计划任务扫描数据源,发现变化的数据,主动将数据推送给相应的文本挖掘模块进行处理。并发控制模块在采用集群部署时负责分配挖掘任务并汇聚挖掘结果。
  4.3 应用与管理层
  应用系统根据应用需求,通过出版系统总线服务调用文本挖掘系统的一个或几个功能。例如,選题优化系统可以调用主题检测功能获得热点话题信息;出版舆情分析系统可以调用情感分析功能获得出版舆论的情感倾向,调用文本过滤功能检查有无针对敏感内容的用户评论等。
  5 结 语
  异构数据文本挖掘技术利用基于规则的敏感信息识别技术和基于样例文档的话题追踪技术分析文本信息流的话题,并利用话题检测技术分析挖掘当前的热点话题,为出版选题、效果评估等决策提供科学的依据,应用前景非常广阔。
  主要参考文献
  [1]杨建武,陈晓鸥.XML文档集的聚类研究[C]//全国数据库学术会议,2001.
  [2]李尚昊,朝乐门.文本挖掘在中文信息分析中的应用研究述评[J].情报科学,2016,34 (8):153-159.
  [3]谢秋华.Web文本挖掘的相关技术问题探讨[J].长春理工大学学报:自然科学版,2010(7):55-56.
  [4]许高建.文本挖掘关键技术研究及实现[D].合肥:合肥工业大学, 2007.
其他文献
2020年,长水河农场有限公司党委按照集团(总局)"181"战略和"北大荒绿色智慧厨房"整体布局,依托北安分公司"两区"战略定位,牢固树立"一盘棋"思想,重点打造"粮食+柳编+有机粮油
[摘 要] 大数据时代背景下的互联网的发展和运转速度令人咋舌,同时,新媒体舆情的发展势头也相当迅猛。大数据技术在日益成熟的同时也在不断鞭策着新媒体舆情的成长,其使得多元化、互动性、自由性和偏差性等逐渐成为当下网络舆情的新特征。伴随着自媒体多方面参与,信息传递逐渐开始出现不对称现象、杂音混响、碎片化类聚等新型特性。传统媒体凭借其新媒体平台推动舆情走向,民众愈发容易参与其中,大数据时代的社会化新媒体舆
为研究古岩溶储层锶同位素地球化学特征,以同位素地球化学实验为手段,结合全球锶同位素背景,探讨黄骅坳陷奥陶系岩溶储层锶同位素地球化学特征成因,分析其南、北区差异性。研
[摘 要]容量管理是IT服务管理中一项重要的管理过程,旨在对IT资源的服务能力进行有效管理,支撑对服务级别协议(SLA)的实现。因此,本文对容量管理进行术语介绍和目标分析,最后对其过程进行说明。  [关键词]IT服务管理;容量管理;过程说明  doi:10.3969/j.issn.1673 - 0194.2017.22.031  [中图分类号]F270.7 [文献标识码]A [文章编号]1673-
按设计手册中六角头螺栓的结构参数创建数据库,用户只需通过使用DCL编写的查询对话框选定螺栓直径,就可以由所开发的AutoLISP程序按指定直径自动查询六角头螺栓的结构参数.经在A
以细叶百合(Lilium pumilum)鳞茎为试验材料,采用RT-PCR方法,克隆得到1个新的NAC转录因子基因,命名为LpNAC13(GenBank登录号MF398204),并用qRT-PCR技术检测该基因在ABA、干旱
在分析湖北来凤地区海相龙马溪组页岩地球化学特征和岩石矿物学特征的基础上,通过高压压汞-低温N2吸附-脱附联合实验对页岩孔隙结构进行了分析。湖北来凤地区龙马溪组页岩TOC
目前已发现的高产陆相页岩油藏类型以裂缝型和夹层型为主,高产页岩油藏一般具有非原位、短距离运聚特征,可流动性是页岩油富集高产的关键。根据油藏渗流力学和物质平衡方程,
[摘要]长庆油田公司在油区进行宽带网建设,旨在为一线职工提供更好的工作设施,丰富员工文化生活,以油区现有的光芯资源为支撑,本次的宽带网建设使用了这些年来普遍采用的EPON接入技术,EPON系统可以提供稳定、大容量的数据传输,使油区一线能够获得与小区同样的高带宽,在建设及运行的过程中,技术人员总结了若干建设与维护的经验心得,在此进行分享。  [关键词]EPON系统;接入网;长庆油田公司  doi:1