基于文本数据的软集合预测方法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:ANDY_YANG2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,文本数据是人们传播和接受信息的重要途径之一。企业利用文本数据发布招聘和优惠广告,新闻机构利用文本数据描述正在发生的事件,公众利用文本数据表达观点抒发情感等。对于企业和个人而言,文本数据蕴含了大量价值。分析提取文本数据中蕴含的价值,是大数据时代取得竞争优势的重要途径。研究基于文本数据的预测方法则是文本数据价值提取的途径之一。但自然语言特征、非精确性等不确定性特征阻碍了利用文本数据进行预测,有必要寻找处理不确定性特征的合适理论并开发相应预测方法。软集合理论是处理不确定性特征的先进理论之一。它源于对近似描述问题的研究,以寻找近似解为构建理念,使用参数化集族的方式描述问题,着眼于建立非精确模型解决问题,并得到相应的近似解。从理论构建理念、问题描述方式和解决路径来看,软集合理论适于作为研究不确定性预测方法的基础理论。因此,寻找基于文本数据的预测问题和软集合理论的结合点,构建基于文本数据的软集合预测方法,能够在发现、提取文本数据蕴含价值的过程中为企业和个人提供可靠工具。本文以三个方面为切入点研究基于文本数据的软集合预测方法。(1)基于文本数据的软集合特征选择方法研究。特征选择阶段是基于文本数据预测的重要阶段。本文针对该阶段以及特征间非精确关系构建了基于文本数据的软集合特征选择方法(FSST)。该方法提出了新的基于等价类的软集合模型,即成对关系软集合模型(PRSS),并进一步构建了近似软集合、依赖度软集合和不可分辨关系软集合用以处理特征间非精确关系。成对关系软集合模型消除了以往基于等价类软集合模型(NSS)的冗余,将衡量特征间依赖程度的运算转化为矩阵计算方式,提升了运算效率。使用算例分析详细介绍了FSST的执行过程。使用16个样本数据库分析比较了FSST与基于NSS的特征选择方法。结果说明FSST保持了分类精度和可扩展性,提高了运行效率。(2)基于文本数据的软依赖预测方法研究。与以往预测方法相比,该方法利用了软概率、软条件概率和软依赖处理自然语言特征和非精确性的优点,即能够处理整个预测过程、随数据库更新动态变化、不需要提供严格的概率稳定性假设、构建非精确模型获取近似解等。首先介绍了软概率、软条件概率、软估计和软依赖等基础理论,然后介绍了方法所解决的预测问题,并构建了基于文本数据的软依赖预测模型、特征软集合模型以及依赖软集合模型。依据这些模型,构建了基于文本数据的软依赖预测方法。软依赖预测模型建立起不考虑时间滞后效应并基于文本数据的软集合预测问题与软依赖之间的联系。软依赖预测模型的具体实现依赖于特征软集合模型和依赖软集合模型。特征软集合模型整合了FSST方法,能够处理特征间非精确关系并将文本数据转化为向量空间表示形式。依赖软集合模型计算软估计,完成预测任务。同时针对依赖软集合模型中存在的空集问题和预测过程中特征过多问题,提出了寻找近似事件和采用启发式算法的解决方案。为了对软估计的效果进行评估,定义了三种软估计误差度量,即误差软映射、单次误差软映射和总误差,并介绍了计算软估计误差度量所需的点与集合之间误差度量,即基于Hausdorff距离的Theil不等系数和基于最小Manhattan距离的Theil不等系数。算例分析中介绍了基于文本数据的软依赖预测方法执行过程。应用分析中使用该方法预测10家公司8-K报告对当期股价波动的影响,分析了方法的优劣势并与其他预测方法做了定性比较。结果说明,基于文本数据的软依赖预测方法能够为不考虑时间滞后效应并基于文本数据的软集合预测任务提供支持。(3)基于文本数据的软序列依赖预测方法研究。该方法利用软序列概率、软序列条件概率和软序列依赖,解决了基于文本数据的软依赖预测方法无法处理时间滞后效应的问题。由于软序列依赖是软依赖在处理样本序列上的扩展,软序列依赖拥有与软依赖相同的处理自然语言特征和非精确性的优势。首先根据软序列概率、软序列条件概率定义了软序列估计和软序列依赖,而后介绍了方法所解决的预测问题,构建了基于文本数据的软序列依赖预测模型和序列依赖软集合模型。依据这些模型,构建了基于文本数据的软序列依赖预测方法。基于文本数据的软序列依赖预测模型建立起考虑时间滞后效应并基于文本数据的软集合预测问题与软序列依赖之间的联系。软序列依赖预测模型的具体实现依赖于特征软集合模型和序列依赖软集合模型。特征软集合模型将文本数据转化为向量空间表示形式。序列依赖软集合模型计算软序列估计,完成预测任务。同时针对序列依赖软集合模型中存在空集和特征过多问题,分别构建了寻找近似事件的方法和启发式算法。定义了序列误差软映射、序列单次误差软映射及序列总误差对软序列估计进行评估。算例分析中介绍了基于文本数据的软序列依赖预测方法执行过程,应用分析中使用该方法预测10家公司8-K报告对滞后一期股价波动的影响。结果说明,基于文本数据的软序列依赖预测方法能够为考虑时间滞后效应并基于文本数据的软集合预测任务提供支持。
其他文献
<正> 随着生活节奏的加快,现代人普遍感到头脑疲劳。为了保持年轻而充满创造力的头脑,必须避免诸多生活上的坏习惯,如抽烟、暴饮暴食、蒙头睡觉、带病用脑等。因为这些坏习惯
目的探讨围术期行呼吸功能锻炼对食管癌患者咳嗽排痰及预后转归的影响。方法选择我科接受开胸手术治疗的高龄食管癌患者122例,随机分为观察组62例和对照组60例。对照组围术期
分析了在信息系统建设起重要影响的几种非技术因素的表现形式;比较和提出了几种信息系统的模式:client/server, browser/server和两者的混合模式,并对它们在信息系统中的适用
本文主要讲述了CIMS建设的几点想法,CIMS建设的基础是现代企业管理思想:CIMS建设的关键是业务流程再造:CIMS建设的核心是信息集成:CIMS实施要进行总体规划,分步实施,面向目标,效益驱动;要充分理解CIMS效益的多
企业在建立 MIS 时,应注意与改进企业管理相结合。本文在调查研究和实践的基础上,探讨了怎样结合 MIS 建设,优化企业的管理职能和组织结构,深化管理,完善管理制度,培养人才等
期刊
浙江地处在中国东南沿海长江三角洲南翼,是中国古代文明的发祥地之一,是旅游经济大省也是旅游资源大省。本文在掌握浙江主要旅游景区空间分布特征的基础上,提出了浙江省可持
乳鸽培育是肉鸽生产的最后一个环节,也是决定鸽体重和等级的最重要的环节。只有精心护理乳鸽才能使乳鸽正常生长,使种鸽生产能力提高,获得较高的经济效益。本文就从乳鸽的生
我国近年来频繁发生的企业"环境污染"事件,将"企业社会责任",尤其是"企业环境责任"的问题再次推到了舆论的风口浪尖。"企业环境责任"是指"企业在追求经济利益最大化的同时,还