论文部分内容阅读
[摘要] 探讨基于实体关系的文本挖掘机制,以文本挖掘为方法,辅以属性抽取、属性关系映射等方式,以上海世博新闻媒体网络版报道为例,对新闻媒体网络版这种非结构化信息进行研究。在属性抽取时结合相似度算法,使属性抽取的准确率得到提高。选取香港、台湾、境外媒体华语版、上海本地媒体对世博会相关报道进行实证分析,基于内容对报道差异进行阐述,并得出结论。研究表明,运用文本挖掘对新闻媒体文本进行分析和评价,可以挖掘出媒体报道的更多内涵,为情报分析提供思路。
[关键词] 文本挖掘 网络媒体 实体关系 属性抽取 上海世博
1 引言
随着信息技术的发展和网络信息资源的丰富,数字化信息不断改变着我们的思维方式和工作模式。然而面对海量信息,如何发现并获取有价值的信息成为难题。如今,各种网络搜索引擎可以帮助人们进行有效的信息检索和分类,但是利用这些工具检索出来的信息仍然是海量的。如何从检索到的海量信息中挖掘出用户感兴趣的内容,并能对信息进行必要的分析、提炼成为信息管理、情报分析领域的新课题呢?本文将运用属性抽取和文本挖掘的方法,以网络版新闻报道为例,对报道的内容进行分析,并挖掘出媒体报道的内涵。
文本挖掘是数据挖掘技术中日益盛行的重要研究领域,同数据挖掘的区别在于文本挖掘主要处理非结构化的文本数据,包括新闻文章、研究论文、书籍、期刊、报告、专利说明书、会议文献、技术档案、政府出版物、技术标准、电子邮件消息及Web页面等,这些数据不像关系数据库那样具有规范格式,因此处理难度都较高。同时,这些文档又大多采用自然语言描述,对挖掘提出更高的要求。从1995年Feldman正式提出文本挖掘的概念[1]至今,国外学者对文本挖掘的应用研究进行了很多有益的探讨,这方面最主要的研究集中在文本挖掘理论体系与技术手段方面,获得的成果有文本挖掘模型[2-3]、非结构化文本文件特征抽取与文本中间表示[4-6]、文本挖掘算法 [7-8]、语义关系挖掘[9-10]、文本聚类与主题分析[11-12]等,对文本挖掘国外学者已经形成了一套较成熟的理论体系,并且应用于多个领域,如网络聊天室文本流主题跟踪[11]、在线新闻实时监控[12]、专利数据分析[13]等。最近几年,国内学者对文本挖掘的关注度开始提高,但仍然处于吸收国外研究成果阶段,在理论方面,对文本特征抽取和文本聚类[14-16]等进行了一定的探讨;在实践应用中,文献[17]运用文本挖掘的方法对政府工作报告中用户感兴趣的区域经济关系进行了实证研究,并得到相关结论。通过国内外的研究对比,笔者发现,无论在理论探讨还是实践应用方面,国内的文本挖掘研究还不够深入,仍处于小规模实验阶段。
本文拟运用文本挖掘的基本方法,就我国台湾、香港及其他境外媒体华语版及上海本地媒体对上海世博会相关报道进行分析,研究的新闻文本量近29 000篇,通过属性抽取分析媒体报道的差异。
2 网络媒体文本挖掘方法分析
本次实验选取的新闻样本为境内外主流媒体网络版,主要包括上海本地的《解放日报》、《新民晚报》等,香港地区的《大公报》、《香港商报》、《香港文汇报》等,台湾地区包括《经济日报》、《联合报》、《中国时报》等,国外媒体中文版包括《星洲日报》(马来西亚)、《明报》(加拿大)、《联合早报》(新加坡)等,共计30家中文主流媒体。
作为一种文本信息,新闻报道的格式也相对一般文本文件更为规范,这样便于挖掘的实现。与传统的新闻分析强调事件(新闻主题)、人物、时间、地点不同,这里运用文本属性抽取和文本内容挖掘以获取新闻报道的关注点并分析不同地区媒体报道的差异,因此与传统的信息统计分析等情报学方法又有一定的区别,可作为特定信息集合的信息挖掘和特征提取的实践应用。
在进行文本挖掘工作前,我们需要对所操作的对象进行抽象化。如果将一篇新闻报道看做一个实体的话,那么新闻报道所反映的信息可以看做该实体的属性,我们可以将实体所关注的重点进行抽象。如:某篇新闻(实体)是关于世博会安全保障(属性)方面的报道,那么安全保障即为该实体的属性,是这篇报道的主要内容。本文关注的是在一个实体集合中哪些属性是他们的共同特征,并且与另外的实体集合有哪些差异,并进行比较。例如:对于上海世博会的报道,香港地区媒体和上海本地媒体就是不同的实体集合,在这两个实体集合中哪些属性是相同的,如报道的关注度主要集中在哪里,哪些又是不同的,如香港地区媒体主要侧重于哪些方面的报道等。我们希望通过文本挖掘的方式进行报道差异的分析。
为了便于实现计算机的文本挖掘,需要建立相应的实体—属性对应关系,这里我们引入了一级属性和二级属性的概念,如下图所示:
依据上文的解释,属性是用来描述某一实体的特征,对于新闻报道来说可以体现为具体内容的抽象,如世博会安全保障(属性)是某篇新闻(实体)的核心内容。然而,安全保障这个属性又是较为抽象的概念,需要将其进一步拆分,如安检、园区秩序等均可用来具体描述安全保障的内容。因此,在设计实体—属性关系时,一级属性用来描述实体的核心内容,而二级属性用来具体表述抽象的属性。
对于不同的实体,都有相应的属性描述,当一类实体组成一个实体集合(如上海本地媒体关于上海世博会报道的集合)时,属性就能反映出不同实体集的差异和不同的关注点。
3 网络版新闻媒体挖掘实现流程
网络版新闻报道是一种文本文件格式,相对于关系数据库中的信息来说属于非结构化信息,如今对非结构化信息挖掘的难点之一是自然语言的处理。为了降低自然语言处理的难度,我们首先将非结构化文本内容通过程序自动导入数据库,形成结构化数据,对结构化数据再进行简单的自然语言识别以实现属性抽取操作,并建立属性(内容)同实体(新闻)的关联关系,进而实现对新闻报道的文本挖掘。流程如图2所示:
我们使用检索策略从网上获取关于上海世博会新闻报道的专题集,在形成专题报道集的过程中,对文本信息进行相应规范化处理,运用自行开发的软件实现内容自动入库,并形成以地区为分类标准的不同实体集合。
对于入库的文本信息,提取新闻属性,首先要创建一个属性关系集合,在集合中包含一级属性和二级属性的关系。确定属性集合的方法分两步:①确定一级属性集合,我们采用的方法是人工对《胡锦涛考察世博会筹办 要求确保安保万无一失》的讲话,以及俞正声《万众一心全力以赴办好世博会》的讲话进行内容整理,统计出9个一级属性,分别为:服务保障、安保工作、外事工作、新闻宣传、社会氛围、场馆建设、科技创新绿色生活、世博园场馆、世博相关等;②确定二级属性集合,我们的方法是采用第三方软件(WordSmith)对文本集进行词频统计,人工筛选出与世博有关的高频信息,通过筛选我们获得近200个高频信息,在人工的干预下实现一级属性和二级属性的映射关系。表1显示的是我们获取的部分属性:
这样一级属性和二级属性就可抽象为如下的逻辑关系:
{KNo,KName,KListk}, KListk = ,k=1,2,…,R;i=1,2,…,n。其中,KNo为属性编号,KName为一级属性名,R为一级属性分类数,KListk为类别K的二级属性,共有n个相应二级属性。
4 新闻媒体属性抽取模型
新闻媒体报道的语言具有自然语言的特点,在属性特征抽取时如果仅仅以建立的二级属性表进行简单的匹配处理将使得处理结果的准确性受到影响,因此我们在特征提取时考虑运用相似度的算法来匹配较为相近的内容,提高属性抽取的完整性。
基于文本挖掘的新闻媒体分析首先是确定信息抽取的方法,提取描述实体的属性信息。根据图1实体—属性关系,抽取的模板为:Template={TNo, TName, News, KSet}
其中,TNo为模板的编号,TName为实体集的名称,取值为所选取的媒体名称,如《解放日报》等;News为实体名称,取值为具体新闻名称,如《站在历史的连接点上——写在上海世博会开幕之际》;KSet为实体描述的属性集合,该属性集合是一个细分的属性描述,即二级属性,能够反映某一News的报道内容。
抽取过程中要对自然语言进行相应的判断,我们运用相似度的计算,公式如下所示:
这里的TigerKey为二级属性KListk的触发器{t1,t2,t3,……tn},通过这些词汇的存在来进行信息的抽取,但考虑到自然语言的表述问题,需要对出现的词汇进行相似度判断。公式中,S表示为一个句子,在属性抽取过程中,计算句子和TigerKey触发器的相似度,当大于一个阀值时,确定为某一KSet的内容。通过相似度的算法,在属性抽取过程中,程序将“安全检测”和“安全检查”视为同一属性描述,并进行提取。这样可以保证由于自然语言表述不同所造成的属性抽取错误。
为了更好地挖掘新闻内容,需要对新闻实体所包含的各种描述属性进行挖掘。我们在对新闻报道进行浏览时,发现一篇新闻报道虽然有某一方面的报道侧重点,但不可避免地会涉及到多个主题,如报道世博服务为主题的新闻报道,还会涉及关于安全保障等方面的内容。因此,为了全面地反映相关内容,在属性提取时,我们考虑实体和属性一对多的关系,并设计了一对多的新闻实体模板,如表2所示。
在具体操作中,属性抽取的基本算法如下:
(1)选取新闻报道专集文本(如台湾媒体),从二级属性中获得属性集合{ KListk |=k=1,2,…,s};
(2)k=1;
(3)获取新闻专集{TNj|j=1,2,……s};
(4)j=1,GetNews(TNj);
(5)在TNj的句子S中查找KListk,SearchKeyword(S,KListk);
(6)如果找到,则将KListk置于缓冲区内,SetKeywork(KListk),结合相似度算法查找相似属性;
(7)如果一篇新闻查找结束,并且缓冲区不为空,则取出缓冲区的内容,按照一级属性和二级属性的关系模板标识相关新闻实体模板,填充新闻名称、属性集合、相似属性;
(8)如果j>s,则新闻专题集结束,否则j=j+1,转(4);
(9)如果k>s,则属性集合结束,否则k=k+1,转(2)。
5 基于文本挖掘的媒体报道差异分析
我们选取了国内上海、香港、台湾及国外媒体华语版2010年4-11月关于世博报道的29 000篇新闻,这些报道来自于《解放日报》、《新民晚报》、《大公报》、《香港商报》、《香港文汇报》、《经济日报》、《联合报》、《中国时报》、《星洲日报》(马来西亚)、《明报》(加拿大)、《联合早报》(新加坡)等共计30家中文版主流媒体,具体分布如表3所示.
国外媒体华语版我们选取了亚洲媒体8家、北美媒体3家,总报道量为3 436篇。对这些新闻文本,我们也进行了字数统计,表4是各媒体报道的平均字数。
从统计的平均报道字数上来看,各地媒体对世博会的报道还是较为重视的,报道的篇幅也较长,报道较为全面。
根据文本挖掘、属性相似匹配以及属性的对照关系,我们对29 000篇来自香港、台湾、上海、国外媒体华语版的新闻报道进行处理,可以大致发现,这些报道更多地集中在对世博会社会氛围、安保工作、科技创新绿色生活方面,图3显示了相关的统计结果。
本次世博会突出绿色环保这一主题,并且参观人数超过7 300万,因此媒体对“科技创新绿色生活”和世博“安保工作”的关注度较高是可以理解的,同时世博会又产生了巨大的社会效应,如对志愿者的宣传等。然而,让我们感到有些意外的是关于具体场馆的关注度并不高,看来媒体更加关注世博会的宣传和安全运营。
我们对各地媒体报道关注度的差异进行了对比分析,发现不同地区对这三大主题的关注度有一定细微的差异。见图4。
从图4我们可以看到,在三大主要宣传主题中,上海媒体报道量较为平均,分别为24%、26%和29%,而香港、台湾、国外媒体华语版的报道则相对有其侧重点,其中香港和台湾媒体更关注世博会的主题,对科技创新绿色生活专题的报道较多,分别占报道总量的39%和41%,国外媒体华语版则更多地关注世博会的安保工作,共有34%的报道量反映这方面的问题。
图5从左至右,由上到下分别显示了上海媒体、台湾媒体、香港媒体、国外媒体华语版在2010年4-11月期间关于世博会三大主要内容报道的走势。
可以看出,各地媒体对世博会关注的热度基本保持稳定,对所关注的主题也基本保持平稳的走势。仅有国外媒体华语版在5月份以后,报道量有一定下降,但是降幅不大,仍然保持一定的关注热度。
此外,从二级属性来看,各地媒体所关注的细节也有所差异,我们选取了关注的前五项进行对比分析,见图10。
从表5中我们可以发现,各地媒体共同关注的内容主要集中在科技创新、绿色环保以及参观人数方面,说明世博主题和参观人数是各媒体的关注重点,然而各地媒体在报道中也有一些差异,如:上海媒体在志愿者(小白菜)这方面有较多的报道,但其他地区媒体则对此关注较少,说明对于世博的社会效应关注不够;另外国外媒体华语版对世博园区内人流、排队秩序方面关注较多,说明其对世博的安全运营较为关注。
6 结束语
随着网络和信息技术的不断发展,网络上的文本信息呈几何数增长,面对海量的信息,人工对其进行相关分析已变得不可能。因此,借助于文本挖掘技术发现潜在的有价值的信息是情报分析研究的一个重要应用。本文以上海世博会媒体网络报道为例,运用文本挖掘技术并辅以属性抽取、属性关系映射等方法,实现了对海量数据的聚类分析,并对差异进行了比较研究。在实际研究中,考虑到新闻报道中大量采用自然语言的特点,在属性抽取时结合了相似度的算法,使挖掘的准确率得到了提高。但是,对于属性之间的有向关系、属性的相关分析、以及如何保证属性构建的准确性等问题还需要进一步的探讨。
参考文献:
[1] Feldman R, Dagan I. Knowledge discovery in textual databases (KDT)// Proceedings of the First International Conference on Knowledge Discovery and Data Mining (KDD-95) ,1995 :112-117.
[2] Mothe J , Chrisment C, Dkaki T. Information mining - use of the document dimensions to analyse interactively a document set// BCS - IRSG 23rd European Colloquium on Information retrieval research, GMD-IPSI, Darmstadt,2001:6-20.
[3] Ghanem M, Chortaras A, Guo Y, et al. A grid infrastructure for mixed bioinformatics data and text mining. Computer Systems and Applications ,2005, 34(1):116-130.
[4] Karanikas H, Tjortjis C, Theodoulidis B. An approach to text mining using information extraction// Proceedings of the Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases. Lyon, France,2000:13-16.
[5] Montes-y-Gómez M, Gelbukh A, López-López A. Text mining at detail level using conceptual graphs// Proceedings of the International Conference on Conceptual Structures.New York: Springer,2002,32-40.
[6] Hu Q h, Yu D R, Duan Y F,et al. A novel weighting formula and feature selection for text classification based on rough set theory. Proceedings of Natural Language Processing and Knowledge Engineering ,2003: 638.
[7] Blake C, Pratt W. Better rules,few features :A semantic approach to selecting features from text// Proceedings of 2001 IEEE International Conference on Data Mining ,2001:59–66.
[8] Kawahara M, Kawano H. An application of text mining:Bibliographic navigator powered by extended association rules// Proceedings of 33rd Hawaii International Conference on System Sciences, 2000:2009-2018.
[9] Girju R, Moldovan D. Text mining for causal relations// Proceedings of the International Florida Artificial Intelligence Research Society (FLAIRS 2002) ,Pensacola ,Florida. May 2002:360-364.
[10] Lin D K, Pantel P. DIRT - Discovery of inference rules from text. Journal of Natural Language Engineering. Fall-Winter ,2001(12) :22-31.
[11] Bingham E. Topic identification in dynamical text by extracting minimum complexity time components// Proceedings of ICA,2001:546-551.
[12] Montes-y-Gómez M, Gelbukh A, López-López A. Discovering ephemeral associations among news topics// Proceedings of IJCAI—— 2001 Workshop on Adaptive Text Extraction and Mining, 2001:216-230.
[13] Lent B , Agrawal R, Srikant R. Discovering trends in text databases// Proceedings of the Third International Conference on Knowledge Discovery and Data Mining,1997: 227-230.
[14] 周茜,赵明生, 扈曼.中文文本分类中的特征选择研究.中文信息学报,2004 ,18(3) :17-23.
[15] 卢娇丽,郑家恒.基于粗糙集的文本分类方法研究.中文信息学报,2005 ,19(2) :66-70.
[16] 刘云峰,齐欢.基于潜在语义空间维度特性的多层文档聚类.清华大学学报(自然科学版) ,2005 ,45 (S1) :1783-1786.
[17] 丁堃,刘盛博,许侃. 基于文本挖掘机制的区域经济关系分析.情报学报,2006,27(3):418-424
[作者简介]阮光册,男,1976年生,博士研究生,发表论文10余篇。
[关键词] 文本挖掘 网络媒体 实体关系 属性抽取 上海世博
1 引言
随着信息技术的发展和网络信息资源的丰富,数字化信息不断改变着我们的思维方式和工作模式。然而面对海量信息,如何发现并获取有价值的信息成为难题。如今,各种网络搜索引擎可以帮助人们进行有效的信息检索和分类,但是利用这些工具检索出来的信息仍然是海量的。如何从检索到的海量信息中挖掘出用户感兴趣的内容,并能对信息进行必要的分析、提炼成为信息管理、情报分析领域的新课题呢?本文将运用属性抽取和文本挖掘的方法,以网络版新闻报道为例,对报道的内容进行分析,并挖掘出媒体报道的内涵。
文本挖掘是数据挖掘技术中日益盛行的重要研究领域,同数据挖掘的区别在于文本挖掘主要处理非结构化的文本数据,包括新闻文章、研究论文、书籍、期刊、报告、专利说明书、会议文献、技术档案、政府出版物、技术标准、电子邮件消息及Web页面等,这些数据不像关系数据库那样具有规范格式,因此处理难度都较高。同时,这些文档又大多采用自然语言描述,对挖掘提出更高的要求。从1995年Feldman正式提出文本挖掘的概念[1]至今,国外学者对文本挖掘的应用研究进行了很多有益的探讨,这方面最主要的研究集中在文本挖掘理论体系与技术手段方面,获得的成果有文本挖掘模型[2-3]、非结构化文本文件特征抽取与文本中间表示[4-6]、文本挖掘算法 [7-8]、语义关系挖掘[9-10]、文本聚类与主题分析[11-12]等,对文本挖掘国外学者已经形成了一套较成熟的理论体系,并且应用于多个领域,如网络聊天室文本流主题跟踪[11]、在线新闻实时监控[12]、专利数据分析[13]等。最近几年,国内学者对文本挖掘的关注度开始提高,但仍然处于吸收国外研究成果阶段,在理论方面,对文本特征抽取和文本聚类[14-16]等进行了一定的探讨;在实践应用中,文献[17]运用文本挖掘的方法对政府工作报告中用户感兴趣的区域经济关系进行了实证研究,并得到相关结论。通过国内外的研究对比,笔者发现,无论在理论探讨还是实践应用方面,国内的文本挖掘研究还不够深入,仍处于小规模实验阶段。
本文拟运用文本挖掘的基本方法,就我国台湾、香港及其他境外媒体华语版及上海本地媒体对上海世博会相关报道进行分析,研究的新闻文本量近29 000篇,通过属性抽取分析媒体报道的差异。
2 网络媒体文本挖掘方法分析
本次实验选取的新闻样本为境内外主流媒体网络版,主要包括上海本地的《解放日报》、《新民晚报》等,香港地区的《大公报》、《香港商报》、《香港文汇报》等,台湾地区包括《经济日报》、《联合报》、《中国时报》等,国外媒体中文版包括《星洲日报》(马来西亚)、《明报》(加拿大)、《联合早报》(新加坡)等,共计30家中文主流媒体。
作为一种文本信息,新闻报道的格式也相对一般文本文件更为规范,这样便于挖掘的实现。与传统的新闻分析强调事件(新闻主题)、人物、时间、地点不同,这里运用文本属性抽取和文本内容挖掘以获取新闻报道的关注点并分析不同地区媒体报道的差异,因此与传统的信息统计分析等情报学方法又有一定的区别,可作为特定信息集合的信息挖掘和特征提取的实践应用。
在进行文本挖掘工作前,我们需要对所操作的对象进行抽象化。如果将一篇新闻报道看做一个实体的话,那么新闻报道所反映的信息可以看做该实体的属性,我们可以将实体所关注的重点进行抽象。如:某篇新闻(实体)是关于世博会安全保障(属性)方面的报道,那么安全保障即为该实体的属性,是这篇报道的主要内容。本文关注的是在一个实体集合中哪些属性是他们的共同特征,并且与另外的实体集合有哪些差异,并进行比较。例如:对于上海世博会的报道,香港地区媒体和上海本地媒体就是不同的实体集合,在这两个实体集合中哪些属性是相同的,如报道的关注度主要集中在哪里,哪些又是不同的,如香港地区媒体主要侧重于哪些方面的报道等。我们希望通过文本挖掘的方式进行报道差异的分析。
为了便于实现计算机的文本挖掘,需要建立相应的实体—属性对应关系,这里我们引入了一级属性和二级属性的概念,如下图所示:
依据上文的解释,属性是用来描述某一实体的特征,对于新闻报道来说可以体现为具体内容的抽象,如世博会安全保障(属性)是某篇新闻(实体)的核心内容。然而,安全保障这个属性又是较为抽象的概念,需要将其进一步拆分,如安检、园区秩序等均可用来具体描述安全保障的内容。因此,在设计实体—属性关系时,一级属性用来描述实体的核心内容,而二级属性用来具体表述抽象的属性。
对于不同的实体,都有相应的属性描述,当一类实体组成一个实体集合(如上海本地媒体关于上海世博会报道的集合)时,属性就能反映出不同实体集的差异和不同的关注点。
3 网络版新闻媒体挖掘实现流程
网络版新闻报道是一种文本文件格式,相对于关系数据库中的信息来说属于非结构化信息,如今对非结构化信息挖掘的难点之一是自然语言的处理。为了降低自然语言处理的难度,我们首先将非结构化文本内容通过程序自动导入数据库,形成结构化数据,对结构化数据再进行简单的自然语言识别以实现属性抽取操作,并建立属性(内容)同实体(新闻)的关联关系,进而实现对新闻报道的文本挖掘。流程如图2所示:
我们使用检索策略从网上获取关于上海世博会新闻报道的专题集,在形成专题报道集的过程中,对文本信息进行相应规范化处理,运用自行开发的软件实现内容自动入库,并形成以地区为分类标准的不同实体集合。
对于入库的文本信息,提取新闻属性,首先要创建一个属性关系集合,在集合中包含一级属性和二级属性的关系。确定属性集合的方法分两步:①确定一级属性集合,我们采用的方法是人工对《胡锦涛考察世博会筹办 要求确保安保万无一失》的讲话,以及俞正声《万众一心全力以赴办好世博会》的讲话进行内容整理,统计出9个一级属性,分别为:服务保障、安保工作、外事工作、新闻宣传、社会氛围、场馆建设、科技创新绿色生活、世博园场馆、世博相关等;②确定二级属性集合,我们的方法是采用第三方软件(WordSmith)对文本集进行词频统计,人工筛选出与世博有关的高频信息,通过筛选我们获得近200个高频信息,在人工的干预下实现一级属性和二级属性的映射关系。表1显示的是我们获取的部分属性:
这样一级属性和二级属性就可抽象为如下的逻辑关系:
{KNo,KName,KListk}, KListk = ,k=1,2,…,R;i=1,2,…,n。其中,KNo为属性编号,KName为一级属性名,R为一级属性分类数,KListk为类别K的二级属性,共有n个相应二级属性。
4 新闻媒体属性抽取模型
新闻媒体报道的语言具有自然语言的特点,在属性特征抽取时如果仅仅以建立的二级属性表进行简单的匹配处理将使得处理结果的准确性受到影响,因此我们在特征提取时考虑运用相似度的算法来匹配较为相近的内容,提高属性抽取的完整性。
基于文本挖掘的新闻媒体分析首先是确定信息抽取的方法,提取描述实体的属性信息。根据图1实体—属性关系,抽取的模板为:Template={TNo, TName, News, KSet}
其中,TNo为模板的编号,TName为实体集的名称,取值为所选取的媒体名称,如《解放日报》等;News为实体名称,取值为具体新闻名称,如《站在历史的连接点上——写在上海世博会开幕之际》;KSet为实体描述的属性集合,该属性集合是一个细分的属性描述,即二级属性,能够反映某一News的报道内容。
抽取过程中要对自然语言进行相应的判断,我们运用相似度的计算,公式如下所示:
这里的TigerKey为二级属性KListk的触发器{t1,t2,t3,……tn},通过这些词汇的存在来进行信息的抽取,但考虑到自然语言的表述问题,需要对出现的词汇进行相似度判断。公式中,S表示为一个句子,在属性抽取过程中,计算句子和TigerKey触发器的相似度,当大于一个阀值时,确定为某一KSet的内容。通过相似度的算法,在属性抽取过程中,程序将“安全检测”和“安全检查”视为同一属性描述,并进行提取。这样可以保证由于自然语言表述不同所造成的属性抽取错误。
为了更好地挖掘新闻内容,需要对新闻实体所包含的各种描述属性进行挖掘。我们在对新闻报道进行浏览时,发现一篇新闻报道虽然有某一方面的报道侧重点,但不可避免地会涉及到多个主题,如报道世博服务为主题的新闻报道,还会涉及关于安全保障等方面的内容。因此,为了全面地反映相关内容,在属性提取时,我们考虑实体和属性一对多的关系,并设计了一对多的新闻实体模板,如表2所示。
在具体操作中,属性抽取的基本算法如下:
(1)选取新闻报道专集文本(如台湾媒体),从二级属性中获得属性集合{ KListk |=k=1,2,…,s};
(2)k=1;
(3)获取新闻专集{TNj|j=1,2,……s};
(4)j=1,GetNews(TNj);
(5)在TNj的句子S中查找KListk,SearchKeyword(S,KListk);
(6)如果找到,则将KListk置于缓冲区内,SetKeywork(KListk),结合相似度算法查找相似属性;
(7)如果一篇新闻查找结束,并且缓冲区不为空,则取出缓冲区的内容,按照一级属性和二级属性的关系模板标识相关新闻实体模板,填充新闻名称、属性集合、相似属性;
(8)如果j>s,则新闻专题集结束,否则j=j+1,转(4);
(9)如果k>s,则属性集合结束,否则k=k+1,转(2)。
5 基于文本挖掘的媒体报道差异分析
我们选取了国内上海、香港、台湾及国外媒体华语版2010年4-11月关于世博报道的29 000篇新闻,这些报道来自于《解放日报》、《新民晚报》、《大公报》、《香港商报》、《香港文汇报》、《经济日报》、《联合报》、《中国时报》、《星洲日报》(马来西亚)、《明报》(加拿大)、《联合早报》(新加坡)等共计30家中文版主流媒体,具体分布如表3所示.
国外媒体华语版我们选取了亚洲媒体8家、北美媒体3家,总报道量为3 436篇。对这些新闻文本,我们也进行了字数统计,表4是各媒体报道的平均字数。
从统计的平均报道字数上来看,各地媒体对世博会的报道还是较为重视的,报道的篇幅也较长,报道较为全面。
根据文本挖掘、属性相似匹配以及属性的对照关系,我们对29 000篇来自香港、台湾、上海、国外媒体华语版的新闻报道进行处理,可以大致发现,这些报道更多地集中在对世博会社会氛围、安保工作、科技创新绿色生活方面,图3显示了相关的统计结果。
本次世博会突出绿色环保这一主题,并且参观人数超过7 300万,因此媒体对“科技创新绿色生活”和世博“安保工作”的关注度较高是可以理解的,同时世博会又产生了巨大的社会效应,如对志愿者的宣传等。然而,让我们感到有些意外的是关于具体场馆的关注度并不高,看来媒体更加关注世博会的宣传和安全运营。
我们对各地媒体报道关注度的差异进行了对比分析,发现不同地区对这三大主题的关注度有一定细微的差异。见图4。
从图4我们可以看到,在三大主要宣传主题中,上海媒体报道量较为平均,分别为24%、26%和29%,而香港、台湾、国外媒体华语版的报道则相对有其侧重点,其中香港和台湾媒体更关注世博会的主题,对科技创新绿色生活专题的报道较多,分别占报道总量的39%和41%,国外媒体华语版则更多地关注世博会的安保工作,共有34%的报道量反映这方面的问题。
图5从左至右,由上到下分别显示了上海媒体、台湾媒体、香港媒体、国外媒体华语版在2010年4-11月期间关于世博会三大主要内容报道的走势。
可以看出,各地媒体对世博会关注的热度基本保持稳定,对所关注的主题也基本保持平稳的走势。仅有国外媒体华语版在5月份以后,报道量有一定下降,但是降幅不大,仍然保持一定的关注热度。
此外,从二级属性来看,各地媒体所关注的细节也有所差异,我们选取了关注的前五项进行对比分析,见图10。
从表5中我们可以发现,各地媒体共同关注的内容主要集中在科技创新、绿色环保以及参观人数方面,说明世博主题和参观人数是各媒体的关注重点,然而各地媒体在报道中也有一些差异,如:上海媒体在志愿者(小白菜)这方面有较多的报道,但其他地区媒体则对此关注较少,说明对于世博的社会效应关注不够;另外国外媒体华语版对世博园区内人流、排队秩序方面关注较多,说明其对世博的安全运营较为关注。
6 结束语
随着网络和信息技术的不断发展,网络上的文本信息呈几何数增长,面对海量的信息,人工对其进行相关分析已变得不可能。因此,借助于文本挖掘技术发现潜在的有价值的信息是情报分析研究的一个重要应用。本文以上海世博会媒体网络报道为例,运用文本挖掘技术并辅以属性抽取、属性关系映射等方法,实现了对海量数据的聚类分析,并对差异进行了比较研究。在实际研究中,考虑到新闻报道中大量采用自然语言的特点,在属性抽取时结合了相似度的算法,使挖掘的准确率得到了提高。但是,对于属性之间的有向关系、属性的相关分析、以及如何保证属性构建的准确性等问题还需要进一步的探讨。
参考文献:
[1] Feldman R, Dagan I. Knowledge discovery in textual databases (KDT)// Proceedings of the First International Conference on Knowledge Discovery and Data Mining (KDD-95) ,1995 :112-117.
[2] Mothe J , Chrisment C, Dkaki T. Information mining - use of the document dimensions to analyse interactively a document set// BCS - IRSG 23rd European Colloquium on Information retrieval research, GMD-IPSI, Darmstadt,2001:6-20.
[3] Ghanem M, Chortaras A, Guo Y, et al. A grid infrastructure for mixed bioinformatics data and text mining. Computer Systems and Applications ,2005, 34(1):116-130.
[4] Karanikas H, Tjortjis C, Theodoulidis B. An approach to text mining using information extraction// Proceedings of the Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases. Lyon, France,2000:13-16.
[5] Montes-y-Gómez M, Gelbukh A, López-López A. Text mining at detail level using conceptual graphs// Proceedings of the International Conference on Conceptual Structures.New York: Springer,2002,32-40.
[6] Hu Q h, Yu D R, Duan Y F,et al. A novel weighting formula and feature selection for text classification based on rough set theory. Proceedings of Natural Language Processing and Knowledge Engineering ,2003: 638.
[7] Blake C, Pratt W. Better rules,few features :A semantic approach to selecting features from text// Proceedings of 2001 IEEE International Conference on Data Mining ,2001:59–66.
[8] Kawahara M, Kawano H. An application of text mining:Bibliographic navigator powered by extended association rules// Proceedings of 33rd Hawaii International Conference on System Sciences, 2000:2009-2018.
[9] Girju R, Moldovan D. Text mining for causal relations// Proceedings of the International Florida Artificial Intelligence Research Society (FLAIRS 2002) ,Pensacola ,Florida. May 2002:360-364.
[10] Lin D K, Pantel P. DIRT - Discovery of inference rules from text. Journal of Natural Language Engineering. Fall-Winter ,2001(12) :22-31.
[11] Bingham E. Topic identification in dynamical text by extracting minimum complexity time components// Proceedings of ICA,2001:546-551.
[12] Montes-y-Gómez M, Gelbukh A, López-López A. Discovering ephemeral associations among news topics// Proceedings of IJCAI—— 2001 Workshop on Adaptive Text Extraction and Mining, 2001:216-230.
[13] Lent B , Agrawal R, Srikant R. Discovering trends in text databases// Proceedings of the Third International Conference on Knowledge Discovery and Data Mining,1997: 227-230.
[14] 周茜,赵明生, 扈曼.中文文本分类中的特征选择研究.中文信息学报,2004 ,18(3) :17-23.
[15] 卢娇丽,郑家恒.基于粗糙集的文本分类方法研究.中文信息学报,2005 ,19(2) :66-70.
[16] 刘云峰,齐欢.基于潜在语义空间维度特性的多层文档聚类.清华大学学报(自然科学版) ,2005 ,45 (S1) :1783-1786.
[17] 丁堃,刘盛博,许侃. 基于文本挖掘机制的区域经济关系分析.情报学报,2006,27(3):418-424
[作者简介]阮光册,男,1976年生,博士研究生,发表论文10余篇。