支持决策研讨的文本分析方法研究

来源 :上海交通大学 | 被引量 : 3次 | 上传用户:wtxsing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社会化媒体的快速增长带来了人们日常交流、决策讨论方式的巨大改变。面对面的会议方式不再是组织内部讨论问题、制定决策的唯一沟通手段。利用社会化媒体支持商业决策研讨的方式已经被越来越多的组织所采用。尽管在线研讨方式给组织带来了巨大的价值,但是,互联网环境中在线研讨文本数据分析存在各种挑战。“如何有效利用研讨文本数据支持决策研讨?”仍然是组织面临的现实问题。本文着重研究了支持决策研讨的文本分析方法。首先,本文介绍了研究背景和研究意义、将研讨文本数据作为研究对象。在完成了对研讨文本数据相关领域的文献综述后,对目前研究现状进行了评述。在此基础上,提出了本文的四个研究问题。本文主要的工作和创新点如下:(1)提出了支持在线研讨意义构建的基于LAP文本分析方法。本文以言语行为视角为理论依据,提出了能够有效支持在线研讨意义构建的基于LAP文本分析方法。该方法包括基于LAP的文本分析框架以及在此基础上提出的若干研究假设。该方法实现了将杂乱无章的发言转化为可以支持在线研讨意义构建的SATrees。以往对文本的分析研究大多停留在对语法和语义理解层次,例如:分词、词性识别和情感分析,同时也难以解决相邻语轮紊乱的问题。SATrees不仅能识别发言之间回复关系还能理解发言者的意图。在基于LAP文本分析方法的指导下,本文设计并开发了LTAS系统。实验结果表明:1)LTAS系统生成的SATrees能够有效地提高对会话结构和行为意图的描述;2)SATrees中更为准确的回复关系能够提高研讨参与者之间社交网络中心度的测量;3)相对于其他基准方法,SATrees使得用户更加容易并且方便地完成用户意义构建任务,其中包括理解群体研讨中内在的行为(action)、情景行为(situated action)和符号行为(Symbolic action)。(2)提出了一系列在线研讨文本自动分析算法,包括包括会话主题拆解算法、连贯性分析以及言语行为分类算法。本文提出了自动识别在线研讨发言之间回复关系和发言言语行为的分析算法。①利用发言之间改进的相似度计算方法,本文提出了用于识别会话主题的研讨文本拆解算法(DSA)。与其它5个主题聚类算法的比较实验显示,本文提出的DSA算法无论是在精度召回率还是F值都优于其他5个算法,并且具有显著性差异;②本文还引入了研讨逻辑特征,并将它作为到TBL分类器的特征,结合本文提出的剩余匹配算法(RM),构成了本文提出的连贯性分析方法TBL-RM。该方法能够自动识别发言之间的回复关系。实验表明研讨逻辑特征是一个非常有效的特征。另外,TBL-RM与其它3个自动算法的比较实验证明,TBL-RM方法具有良好的性能。而且该结果与采用人工方法识别并没有显著性的差异;③在言语行为分类算法研究中,我们提出了一个两阶段方法,其中包括初始的分类方法和基于核心树的分类方法。对比试验表明,本文提出的两阶段方法明显优于其他5个基准算法。(3)提出了加入欺骗语言特征的在线评论欺骗识别方法。现在越来越多的人愿意在社会化媒体平台上发布自己的观点和评论。那么,相应地包含用户评论的网站也成为虚假评论的攻击目标。在现有的欺骗研究中,训练语料来自于人工标注的语料,而本文中的虚假评论则是由用户专门撰写的欺骗性评论。这些虚假评论来自作者的想象力,与真实评论十分相似。结合心理学相关的欺骗理论与社会化媒体平台上的欺骗行为特点,我们提出了11个欺骗性语言线索共3类特征集,其中包括词语词频、信息丰富度和内容信服度。接下来,我们设计并开发了在线评论欺骗识别系统并比较各种组合特征集的欺骗识别效果。在由我们自己产生的评论数据集上,系统对虚假评论识别的精度接近80%。最后,欺骗性语言线索分析揭示了虚假评论与之前欺骗识别理论之间的关系。本文的研究结果有助于识别依靠想象力撰写的并且比较复杂的虚假评论。(4)提出了“主题-利益相关群体-情感”的网络民意建模方法之前,对于网络民意的分析大多停留在对结构化信息的处理上。本文从研讨文本内容理解的角度,提出了面向研讨问题的网络民意建模系统框架。该框架由数据准备和网络民意建模两部分组成。数据准备部分实现从互联网中收集并过滤与研讨问题相关的网络评论,并对其文字内容进行语义标准。在此基础上,网络民意建模通过对研讨问题主题解析、评论内容与主题相似度计算、利益相关群体发现以及情感分析四个步骤,最终构建了“主题-利益相关群体-情感”模型。该模型可以快速地把握互联网上对于某个具体研讨问题相关的网络评论的情感倾向程度。我们从各大网站和论坛收集了一年的研讨文本数据作为实验语料,并选择了“职工高额医药费用负担”和“农村合作医疗制度”作为研讨问题。案例分析表明,本文提出的网络民意建模方法能够很好地帮助用户了解互联网上普通网民的意见。
其他文献
人脸表情识别是心理学、生理学、图像处理、机器视觉、模式识别等多领域的一个富有潜力和挑战的课题。为了满足人脸表情识别系统在实际生活中的应用,越来越多的研究者开始对人
目前许多制鞋企业针对具有彩印图案的皮革裁切多采用人工定位、机械冲裁的加工方式,这种半自动化的裁切方式不仅因为模具局限而影响产品的多样性,还受到人工定位工序的影响降低
分级基金是近几年才出现在我国基金市场的一种创新金融产品,它的出现填补了市场的空白,为不同风险喜好的投资者提供相应的两种子基金份额。其中优先份额通常情况下会按照约定的
1998年,我国首次推出两家封闭式基金正式揭开了证券投资基金发展的序幕。历经10多年的快速发展,截至2012年底,我国证券投资基金达到1241只,管理资产合计36225.52亿元,其中,公
组织工程技术的发展为临床骨缺损修复提供了全新的方法和思路。骨软骨再生支架的一体化设计与制造是组织工程技术研究的难点。传统的支架制备工艺及装备技术存在局限性,目前制
文章的目的旨在通过探讨西安市几个典型的中高档居住小区内的植物绿化的现状和对策,查找不足,并结合西安地区的气候条件,筛选出适合西安本地的绿化树种和配置模式,为西安居住区园
进入21世纪以来,随着我国经济的不断增长,作为我国十大支柱产业之一的汽车产业得到了迅猛的发展,许多同汽车产业相关的汽车制造、研发工厂和销售中心等在各个城市兴建。现代经济
课堂用语指组织课堂教学,推进教学过程的口语。课堂用语是教师教学行为的主要媒介,不仅是教师完成教学任务的表达手段,也是学生模仿的对象。在汉语二语课堂教学中,教师的课堂用语
本文将依照不同类型的文书分易经占卜文书、阴阳五行占卜文书、天文占卜文书、符篆文书、巫术文书、杂占及其它文书六章,每章对各类文书分叙录、录文、校勘、考释四部分逐一
21世纪,人类面临着能源危机及生态环境的恶化,改变能源结构、发展绿色能源已成为备受关注的课题。太阳能是最具应用前景的可再生清洁能源之一,利用太阳能电池可以无任何材料损耗