【摘 要】
:
网络股评的倾向性分析是倾向性文本分析在特定的股票领域的应用,既包含文本分析的一般性,又包含股票领域分析的特殊性。本文在网络股评的倾向性分析方面做了一系列深入研究,
论文部分内容阅读
网络股评的倾向性分析是倾向性文本分析在特定的股票领域的应用,既包含文本分析的一般性,又包含股票领域分析的特殊性。本文在网络股评的倾向性分析方面做了一系列深入研究,实现了网络股评文本倾向性挖掘系统。具体设计如下:(1)股评词库的构建。结合点式互信息度量变量间相关性的方法,提出了一种基于待识别词与种子词汇问的互信息的度量词汇的倾向性度量算法,结合人工筛选,最终实现了网络股评倾向性词汇库构建。(2)预处理环节。设计了本研究所需的个性化网络爬虫的算法,实现了其相关程序;基于最大匹配算法通过二分查找提高分词过程中查找词典的效率问题,实现了一种快速双向最大匹配的中文分词算法。(3)特征选择方面。结合对多种特征选择算法的实现与分析,提出了一种改进的卡方统计法,该算法不仅可以保留卡方统计方法对具有区分度特征识别的优点,而且能够避免低频特征项对系统整体的干扰。结合实验证明了改进卡方统计法在股评文本分类中具有一定的有效性。(4)模型构建。结合对SVM算法理论的分析,提出了一种抗干扰的改进SVM分类算法,通过去掉部分训练数据集中的噪音点,从而防止“过拟合”现象的发生。本文作为文本数据挖掘的一个深入性研究,不仅推导了具有数学形式的基础理论算法,而且通过实践强调了其在工程研究方面的应用价值。不仅详细地描述了文本挖掘的整个理论框架,还阐述了其中的若干具有独创性的改进算法。最后,结合试验验证了机器自动化预测股评倾向性和人工读取结果具有较高的一致性。
其他文献
跨入21世纪,我国老年人口持续增长。老龄化的社会已经悄悄来临了,人口老龄化将会给社会带来一系列的问题,在这个过程中,体育能够扮演解决问题的角色。社会老龄化的进程中,老
对于施工的过程以及工期项目展开行之有效的工期管理,这本身就是我们保证建筑工程经济效益的一个基本前提和关键所在,这也是整个建筑工程的管理中人力资源不可缺少和获取的一
采用盆地模拟技术对川东北地区嘉二气藏古流体势演化开展研究,早中侏罗时期,流体势主要分布在55~85kJ/kg,平均流体势值为71.776kJ/kg;至晚侏罗时期,流体势主要分布在110~155kJ/kg,平均流
为了解决CS算法在距离压缩时无法使用带有误差的原始信号的问题 ,作者提出一种等效斜视的波数域算法 .本文基于星载SAR等效斜视距离模型 ,利用Bamler提出的波数域算法推导方
基于高技术产业分省的面板数据,选取固定资产原值、职工人数、科研经费作为投入变量,销售额作为产出变量,采用动态面板变系数模型分析不同地区科研经费对高技术产业产出贡献
目的:观察加味小承气汤自拟治疗便秘的临床疗效。方法:167例随机分为两组,对照组84例采用西药常规治疗,治疗组83例用小承气汤辨证加减,观察每日排便量及排便时间,两组疗程均
随着我国社会主义市场经济的发展,“一村一品”的发展有了很大的进步和提升,促进了农民增收和农业增效,是建设社会主义新农村的措施、加快建设现代农业的途径和实现农民持续
目的:25℃条件下,观察四种临床常用头孢类药物在输液中的稳定性.方法:采用高效液相色谱法(HPLC)测量供试药品在5%葡萄糖注射液和0.9%氯化钠注射液中24小时内含量的变化,光阻
立体视觉技术被广泛的应用于视觉导航系统中.由于要求计算快速,以往的立体视觉导航系统通常采用局部匹配的方法,其匹配精确度较差,不能满足高性能视觉导航的需要.为此,我们提
茶油(camellia oil)作为常用的可食用植物油,不仅富含多种不饱和脂肪酸,而且天然活性成分含量丰富,主要包括维生素E,角鲨烯和多酚等抗氧化组分。由于茶籽种植具有明显的地域