基于文本挖掘的网络媒体报道研究

来源 :图书情报工作网刊 | 被引量 : 0次 | 上传用户:amyzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 探讨基于实体关系的文本挖掘机制,以文本挖掘为方法,辅以属性抽取、属性关系映射等方式,以上海世博新闻媒体网络版报道为例,对新闻媒体网络版这种非结构化信息进行研究。在属性抽取时结合相似度算法,使属性抽取的准确率得到提高。选取香港、台湾、境外媒体华语版、上海本地媒体对世博会相关报道进行实证分析,基于内容对报道差异进行阐述,并得出结论。研究表明,运用文本挖掘对新闻媒体文本进行分析和评价,可以挖掘出媒体报道的更多内涵,为情报分析提供思路。
  [关键词] 文本挖掘 网络媒体 实体关系 属性抽取 上海世博
  
  1 引言
  
  随着信息技术的发展和网络信息资源的丰富,数字化信息不断改变着我们的思维方式和工作模式。然而面对海量信息,如何发现并获取有价值的信息成为难题。如今,各种网络搜索引擎可以帮助人们进行有效的信息检索和分类,但是利用这些工具检索出来的信息仍然是海量的。如何从检索到的海量信息中挖掘出用户感兴趣的内容,并能对信息进行必要的分析、提炼成为信息管理、情报分析领域的新课题呢?本文将运用属性抽取和文本挖掘的方法,以网络版新闻报道为例,对报道的内容进行分析,并挖掘出媒体报道的内涵。
   文本挖掘是数据挖掘技术中日益盛行的重要研究领域,同数据挖掘的区别在于文本挖掘主要处理非结构化的文本数据,包括新闻文章、研究论文、书籍、期刊、报告、专利说明书、会议文献、技术档案、政府出版物、技术标准、电子邮件消息及Web页面等,这些数据不像关系数据库那样具有规范格式,因此处理难度都较高。同时,这些文档又大多采用自然语言描述,对挖掘提出更高的要求。从1995年Feldman正式提出文本挖掘的概念[1]至今,国外学者对文本挖掘的应用研究进行了很多有益的探讨,这方面最主要的研究集中在文本挖掘理论体系与技术手段方面,获得的成果有文本挖掘模型[2-3]、非结构化文本文件特征抽取与文本中间表示[4-6]、文本挖掘算法 [7-8]、语义关系挖掘[9-10]、文本聚类与主题分析[11-12]等,对文本挖掘国外学者已经形成了一套较成熟的理论体系,并且应用于多个领域,如网络聊天室文本流主题跟踪[11]、在线新闻实时监控[12]、专利数据分析[13]等。最近几年,国内学者对文本挖掘的关注度开始提高,但仍然处于吸收国外研究成果阶段,在理论方面,对文本特征抽取和文本聚类[14-16]等进行了一定的探讨;在实践应用中,文献[17]运用文本挖掘的方法对政府工作报告中用户感兴趣的区域经济关系进行了实证研究,并得到相关结论。通过国内外的研究对比,笔者发现,无论在理论探讨还是实践应用方面,国内的文本挖掘研究还不够深入,仍处于小规模实验阶段。
  本文拟运用文本挖掘的基本方法,就我国台湾、香港及其他境外媒体华语版及上海本地媒体对上海世博会相关报道进行分析,研究的新闻文本量近29 000篇,通过属性抽取分析媒体报道的差异。
  
  2 网络媒体文本挖掘方法分析
  
  本次实验选取的新闻样本为境内外主流媒体网络版,主要包括上海本地的《解放日报》、《新民晚报》等,香港地区的《大公报》、《香港商报》、《香港文汇报》等,台湾地区包括《经济日报》、《联合报》、《中国时报》等,国外媒体中文版包括《星洲日报》(马来西亚)、《明报》(加拿大)、《联合早报》(新加坡)等,共计30家中文主流媒体。
  作为一种文本信息,新闻报道的格式也相对一般文本文件更为规范,这样便于挖掘的实现。与传统的新闻分析强调事件(新闻主题)、人物、时间、地点不同,这里运用文本属性抽取和文本内容挖掘以获取新闻报道的关注点并分析不同地区媒体报道的差异,因此与传统的信息统计分析等情报学方法又有一定的区别,可作为特定信息集合的信息挖掘和特征提取的实践应用。
   在进行文本挖掘工作前,我们需要对所操作的对象进行抽象化。如果将一篇新闻报道看做一个实体的话,那么新闻报道所反映的信息可以看做该实体的属性,我们可以将实体所关注的重点进行抽象。如:某篇新闻(实体)是关于世博会安全保障(属性)方面的报道,那么安全保障即为该实体的属性,是这篇报道的主要内容。本文关注的是在一个实体集合中哪些属性是他们的共同特征,并且与另外的实体集合有哪些差异,并进行比较。例如:对于上海世博会的报道,香港地区媒体和上海本地媒体就是不同的实体集合,在这两个实体集合中哪些属性是相同的,如报道的关注度主要集中在哪里,哪些又是不同的,如香港地区媒体主要侧重于哪些方面的报道等。我们希望通过文本挖掘的方式进行报道差异的分析。
  为了便于实现计算机的文本挖掘,需要建立相应的实体—属性对应关系,这里我们引入了一级属性和二级属性的概念,如下图所示:
  依据上文的解释,属性是用来描述某一实体的特征,对于新闻报道来说可以体现为具体内容的抽象,如世博会安全保障(属性)是某篇新闻(实体)的核心内容。然而,安全保障这个属性又是较为抽象的概念,需要将其进一步拆分,如安检、园区秩序等均可用来具体描述安全保障的内容。因此,在设计实体—属性关系时,一级属性用来描述实体的核心内容,而二级属性用来具体表述抽象的属性。
   对于不同的实体,都有相应的属性描述,当一类实体组成一个实体集合(如上海本地媒体关于上海世博会报道的集合)时,属性就能反映出不同实体集的差异和不同的关注点。
  
  3 网络版新闻媒体挖掘实现流程
  
  网络版新闻报道是一种文本文件格式,相对于关系数据库中的信息来说属于非结构化信息,如今对非结构化信息挖掘的难点之一是自然语言的处理。为了降低自然语言处理的难度,我们首先将非结构化文本内容通过程序自动导入数据库,形成结构化数据,对结构化数据再进行简单的自然语言识别以实现属性抽取操作,并建立属性(内容)同实体(新闻)的关联关系,进而实现对新闻报道的文本挖掘。流程如图2所示:
  我们使用检索策略从网上获取关于上海世博会新闻报道的专题集,在形成专题报道集的过程中,对文本信息进行相应规范化处理,运用自行开发的软件实现内容自动入库,并形成以地区为分类标准的不同实体集合。
  对于入库的文本信息,提取新闻属性,首先要创建一个属性关系集合,在集合中包含一级属性和二级属性的关系。确定属性集合的方法分两步:①确定一级属性集合,我们采用的方法是人工对《胡锦涛考察世博会筹办 要求确保安保万无一失》的讲话,以及俞正声《万众一心全力以赴办好世博会》的讲话进行内容整理,统计出9个一级属性,分别为:服务保障、安保工作、外事工作、新闻宣传、社会氛围、场馆建设、科技创新绿色生活、世博园场馆、世博相关等;②确定二级属性集合,我们的方法是采用第三方软件(WordSmith)对文本集进行词频统计,人工筛选出与世博有关的高频信息,通过筛选我们获得近200个高频信息,在人工的干预下实现一级属性和二级属性的映射关系。表1显示的是我们获取的部分属性:
  这样一级属性和二级属性就可抽象为如下的逻辑关系:
  {KNo,KName,KListk}, KListk = ,k=1,2,…,R;i=1,2,…,n。其中,KNo为属性编号,KName为一级属性名,R为一级属性分类数,KListk为类别K的二级属性,共有n个相应二级属性。
  
  4 新闻媒体属性抽取模型
  
  新闻媒体报道的语言具有自然语言的特点,在属性特征抽取时如果仅仅以建立的二级属性表进行简单的匹配处理将使得处理结果的准确性受到影响,因此我们在特征提取时考虑运用相似度的算法来匹配较为相近的内容,提高属性抽取的完整性。
   基于文本挖掘的新闻媒体分析首先是确定信息抽取的方法,提取描述实体的属性信息。根据图1实体—属性关系,抽取的模板为:Template={TNo, TName, News, KSet}
   其中,TNo为模板的编号,TName为实体集的名称,取值为所选取的媒体名称,如《解放日报》等;News为实体名称,取值为具体新闻名称,如《站在历史的连接点上——写在上海世博会开幕之际》;KSet为实体描述的属性集合,该属性集合是一个细分的属性描述,即二级属性,能够反映某一News的报道内容。
   抽取过程中要对自然语言进行相应的判断,我们运用相似度的计算,公式如下所示:
   这里的TigerKey为二级属性KListk的触发器{t1,t2,t3,……tn},通过这些词汇的存在来进行信息的抽取,但考虑到自然语言的表述问题,需要对出现的词汇进行相似度判断。公式中,S表示为一个句子,在属性抽取过程中,计算句子和TigerKey触发器的相似度,当大于一个阀值时,确定为某一KSet的内容。通过相似度的算法,在属性抽取过程中,程序将“安全检测”和“安全检查”视为同一属性描述,并进行提取。这样可以保证由于自然语言表述不同所造成的属性抽取错误。
   为了更好地挖掘新闻内容,需要对新闻实体所包含的各种描述属性进行挖掘。我们在对新闻报道进行浏览时,发现一篇新闻报道虽然有某一方面的报道侧重点,但不可避免地会涉及到多个主题,如报道世博服务为主题的新闻报道,还会涉及关于安全保障等方面的内容。因此,为了全面地反映相关内容,在属性提取时,我们考虑实体和属性一对多的关系,并设计了一对多的新闻实体模板,如表2所示。
  在具体操作中,属性抽取的基本算法如下:
   (1)选取新闻报道专集文本(如台湾媒体),从二级属性中获得属性集合{ KListk |=k=1,2,…,s};
   (2)k=1;
   (3)获取新闻专集{TNj|j=1,2,……s};
   (4)j=1,GetNews(TNj);
   (5)在TNj的句子S中查找KListk,SearchKeyword(S,KListk);
   (6)如果找到,则将KListk置于缓冲区内,SetKeywork(KListk),结合相似度算法查找相似属性;
   (7)如果一篇新闻查找结束,并且缓冲区不为空,则取出缓冲区的内容,按照一级属性和二级属性的关系模板标识相关新闻实体模板,填充新闻名称、属性集合、相似属性;
   (8)如果j>s,则新闻专题集结束,否则j=j+1,转(4);
   (9)如果k>s,则属性集合结束,否则k=k+1,转(2)。
  
  5 基于文本挖掘的媒体报道差异分析
  
  我们选取了国内上海、香港、台湾及国外媒体华语版2010年4-11月关于世博报道的29 000篇新闻,这些报道来自于《解放日报》、《新民晚报》、《大公报》、《香港商报》、《香港文汇报》、《经济日报》、《联合报》、《中国时报》、《星洲日报》(马来西亚)、《明报》(加拿大)、《联合早报》(新加坡)等共计30家中文版主流媒体,具体分布如表3所示.
   国外媒体华语版我们选取了亚洲媒体8家、北美媒体3家,总报道量为3 436篇。对这些新闻文本,我们也进行了字数统计,表4是各媒体报道的平均字数。
  从统计的平均报道字数上来看,各地媒体对世博会的报道还是较为重视的,报道的篇幅也较长,报道较为全面。
  根据文本挖掘、属性相似匹配以及属性的对照关系,我们对29 000篇来自香港、台湾、上海、国外媒体华语版的新闻报道进行处理,可以大致发现,这些报道更多地集中在对世博会社会氛围、安保工作、科技创新绿色生活方面,图3显示了相关的统计结果。
  本次世博会突出绿色环保这一主题,并且参观人数超过7 300万,因此媒体对“科技创新绿色生活”和世博“安保工作”的关注度较高是可以理解的,同时世博会又产生了巨大的社会效应,如对志愿者的宣传等。然而,让我们感到有些意外的是关于具体场馆的关注度并不高,看来媒体更加关注世博会的宣传和安全运营。
  我们对各地媒体报道关注度的差异进行了对比分析,发现不同地区对这三大主题的关注度有一定细微的差异。见图4。
  从图4我们可以看到,在三大主要宣传主题中,上海媒体报道量较为平均,分别为24%、26%和29%,而香港、台湾、国外媒体华语版的报道则相对有其侧重点,其中香港和台湾媒体更关注世博会的主题,对科技创新绿色生活专题的报道较多,分别占报道总量的39%和41%,国外媒体华语版则更多地关注世博会的安保工作,共有34%的报道量反映这方面的问题。
  图5从左至右,由上到下分别显示了上海媒体、台湾媒体、香港媒体、国外媒体华语版在2010年4-11月期间关于世博会三大主要内容报道的走势。
  可以看出,各地媒体对世博会关注的热度基本保持稳定,对所关注的主题也基本保持平稳的走势。仅有国外媒体华语版在5月份以后,报道量有一定下降,但是降幅不大,仍然保持一定的关注热度。
  此外,从二级属性来看,各地媒体所关注的细节也有所差异,我们选取了关注的前五项进行对比分析,见图10。
  从表5中我们可以发现,各地媒体共同关注的内容主要集中在科技创新、绿色环保以及参观人数方面,说明世博主题和参观人数是各媒体的关注重点,然而各地媒体在报道中也有一些差异,如:上海媒体在志愿者(小白菜)这方面有较多的报道,但其他地区媒体则对此关注较少,说明对于世博的社会效应关注不够;另外国外媒体华语版对世博园区内人流、排队秩序方面关注较多,说明其对世博的安全运营较为关注。
  
  6 结束语
  
  随着网络和信息技术的不断发展,网络上的文本信息呈几何数增长,面对海量的信息,人工对其进行相关分析已变得不可能。因此,借助于文本挖掘技术发现潜在的有价值的信息是情报分析研究的一个重要应用。本文以上海世博会媒体网络报道为例,运用文本挖掘技术并辅以属性抽取、属性关系映射等方法,实现了对海量数据的聚类分析,并对差异进行了比较研究。在实际研究中,考虑到新闻报道中大量采用自然语言的特点,在属性抽取时结合了相似度的算法,使挖掘的准确率得到了提高。但是,对于属性之间的有向关系、属性的相关分析、以及如何保证属性构建的准确性等问题还需要进一步的探讨。
  
  参考文献:
   [1] Feldman R, Dagan I. Knowledge discovery in textual databases (KDT)// Proceedings of the First International Conference on Knowledge Discovery and Data Mining (KDD-95) ,1995 :112-117.
  [2] Mothe J , Chrisment C, Dkaki T. Information mining - use of the document dimensions to analyse interactively a document set// BCS - IRSG 23rd European Colloquium on Information retrieval research, GMD-IPSI, Darmstadt,2001:6-20.
  [3] Ghanem M, Chortaras A, Guo Y, et al. A grid infrastructure for mixed bioinformatics data and text mining. Computer Systems and Applications ,2005, 34(1):116-130.
  [4] Karanikas H, Tjortjis C, Theodoulidis B. An approach to text mining using information extraction// Proceedings of the Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases. Lyon, France,2000:13-16.
  [5] Montes-y-Gómez M, Gelbukh A, López-López A. Text mining at detail level using conceptual graphs// Proceedings of the International Conference on Conceptual Structures.New York: Springer,2002,32-40.
  [6] Hu Q h, Yu D R, Duan Y F,et al. A novel weighting formula and feature selection for text classification based on rough set theory. Proceedings of Natural Language Processing and Knowledge Engineering ,2003: 638.
  [7] Blake C, Pratt W. Better rules,few features :A semantic approach to selecting features from text// Proceedings of 2001 IEEE International Conference on Data Mining ,2001:59–66.
  [8] Kawahara M, Kawano H. An application of text mining:Bibliographic navigator powered by extended association rules// Proceedings of 33rd Hawaii International Conference on System Sciences, 2000:2009-2018.
  [9] Girju R, Moldovan D. Text mining for causal relations// Proceedings of the International Florida Artificial Intelligence Research Society (FLAIRS 2002) ,Pensacola ,Florida. May 2002:360-364.
  [10] Lin D K, Pantel P. DIRT - Discovery of inference rules from text. Journal of Natural Language Engineering. Fall-Winter ,2001(12) :22-31.
  [11] Bingham E. Topic identification in dynamical text by extracting minimum complexity time components// Proceedings of ICA,2001:546-551.
  [12] Montes-y-Gómez M, Gelbukh A, López-López A. Discovering ephemeral associations among news topics// Proceedings of IJCAI—— 2001 Workshop on Adaptive Text Extraction and Mining, 2001:216-230.
  [13] Lent B , Agrawal R, Srikant R. Discovering trends in text databases// Proceedings of the Third International Conference on Knowledge Discovery and Data Mining,1997: 227-230.
  [14] 周茜,赵明生, 扈曼.中文文本分类中的特征选择研究.中文信息学报,2004 ,18(3) :17-23.
  [15] 卢娇丽,郑家恒.基于粗糙集的文本分类方法研究.中文信息学报,2005 ,19(2) :66-70.
  [16] 刘云峰,齐欢.基于潜在语义空间维度特性的多层文档聚类.清华大学学报(自然科学版) ,2005 ,45 (S1) :1783-1786.
  [17] 丁堃,刘盛博,许侃. 基于文本挖掘机制的区域经济关系分析.情报学报,2006,27(3):418-424
  
  [作者简介]阮光册,男,1976年生,博士研究生,发表论文10余篇。
其他文献
1999年11月初,联想电脑公司得知在IDC的排名上,联想已居亚太第一,而1999年11月24日,联想推出了基于因特网的天禧电脑,短短半月,联想迈出了一大步。    第一并不是最好    1984年,联想还是中关村的一个小牌子,没有人猜到15年后,这个牌子竟成了亚太第一品牌。如果对联想人来讲,这无疑是个巨大的成功,但对于整个计算机业来讲,这个第一的意味有多大。  在中国150年的历史中,中国不是没
期刊
清华视美乐公司挣了3000万  只用了8个月时间,第一家学生公司就真挣着钱了。清华视美乐公司的多媒体超大屏幕投影电视技术,被以3000万元卖给了著名家电企业澳柯玛集团。清华视美乐是我国第一家在校大学生组建的创业公司。此前,有报道称,学生公司现在“日子不好过”。负责该项目的清华兴业投资公司潘福祥总经理认为,视美乐能挣着钱,“关键是不把自己看成是学生公司,而是作为市场环境下和其他公司一样的主体参与竞争
期刊
大概没有谁会相信我这个从事外事工作的人,一个与INTERENT打了几年交道并深受其益,一天不上网都会感到若有所失的人,会在一篇文章里反对INTERENT,面对它如临大敌。  事情源起于去西藏旅游的时候我和我们的美国学生一起去找网吧。有一天,那是刚到拉萨不久,我们忽然想找个网吧。这对于几年来生活工作都使用因特网,已深感离不开它的人来说,是可以理解的。我们想看看世界发生了什么事儿,同时想把我们看到的西
期刊
我几乎是在得意洋洋地写小说时,却突然感到生活有点不对劲了,具体地说我觉得有些不合算棗我呕心沥血兴奋若狂热泪盈眶地构思,我点灯熬油冥思苦想夜以继日地挥笔,创作出自以为深刻深邃深沉的作品,其稿酬却不够大款吃半顿饭的。一万多字小说的稿费,仅够交纳每月的水电、煤气和房费。再看看别的作家,有的比我还惨,数年数月苦苦地爬格子,写出一部数十万字的长篇小说,还得自己掏腰包拿出几万元钱自费出书。不仅作家艺术家们在经
期刊
科学界普遍认为,生物技术和信息技术的发展将成为下世纪关系国家命运的关键技术。    也许有人不知道基因工程,但几乎无人不知道“克隆”。1997年3月,英国科学家“克隆”出了小绵羊“多利”。媒体争相报道这件轰动全球的新闻,一时间,克隆技术以及基因工程成为人们关注的焦点。    何谓基因工程    基因(Gene)一词是由丹麦遗传学家约翰森建议使用并沿用至今。1865年,奥地利牧师孟德尔提出了遗传因子
期刊
1999年11月,中国大陆权威调查机构的一项分析表明:由北京金洪恩电脑有限公司开发的《开天辟地》至少对上千万中国人进行了电脑扫盲。金洪恩的董事长兼总经理叫池宇峰,29岁,身高一米七九,人长得很帅。  你可能不认识池宇峰,但这个年轻人是20世纪末中国IT业的传奇英雄之一,他的影响足以入选中国IT发展进程的风云人物。是他,鼓舞了成千上万的中国人学会了电脑,进入了互联网世界。他何以有这么大的力量?我们所
期刊
1990年7月11日,一架加拿大航空公司的波音747客机飞抵香港,走出来一位年轻人,他是加拿大魁北克政府驻香港地区和中国的首席经济参赞王辉耀。  此时此刻,他心中非常激动,他回到了祖国,他终于有了一个施展抱负的大舞台。  从1984年赴加拿大留学至1990年,王辉耀在加拿大已经6年。在他31岁时,成为魁北克政府有史以来第一次任命的非法裔或欧裔的驻外官员。他不仅是最年轻的驻外参赞,也是在加拿大第一个
期刊
1、 1866年,澳地利植物学家、修道院士格雷戈·孟得尔,通过碗豆杂交实验,奠定了遗传学的基础。他突破性的研究成果发表于澳地利的一家自然科学杂志上,但其后30多年里却无人问津。  2、 1882年,当德国胚胎学家沃尔森·弗莱明用显微镜下观察火蜥蜴幼虫时,注意到细胞中间有一些正在分离的细线。后来被证明这些“细线”就是染色体。  3、 1883年,查尔斯·达尔文的堂兄弗朗西斯·高尔顿,极力倡导人类应该
期刊
曾以《恩波智业》而名闻遐迩的策划人王力先生销声匿迹数年后复出,又以一套118万字的巨著震撼世人。这套以《不成咋办?咋办不成?》命名的四卷新作初印数90万册,码洋达1600万元,相当于一个中型出版社的年产值!连笔者也感惊讶:莫非王力先生的“另类思维”有核爆炸班的效果?应该说,这是图书史上的奇迹,也是知识经济的必然。    王力“归隐”多年日前复出,话峰依旧爽直,话语依旧犀利,当记者问及中国策划界开始
期刊
最近,联想集团董事局主席兼总裁柳传志接受记者专访,就非常敏感的“人才”“人事”问题坦率直言。  记:联想非常重视对年轻人才的培养,那么,为什么要在15周年的时候面对社会公开检讨自己?考虑过此举带来的负面影响吗?  柳:联想目前成了中国电子行业中最大的一个企业,高科技领域中的排头兵,应该讲是极其重视人才培养的。然而在人才发掘培养的具体操作上,却依然有很大缺陷,没有形成系统规范的作法,没有形成机制,这
期刊