文本倾向性分析用于金融市场波动率与金融信息相互关系的研究

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:BeginJava123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联刚金融信息对于金融市场的影响在当代已经越来越不可忽视.面对海量的信息,其中大部分为非结构化的文本数据。本文结合目前已有的文本倾向性算法,把信息的褒贬值作为外部变量加入到针对股价波动率建立的时间序列模型中去,对金融市场的股价波动率进行预测。实验揭示了金融市场波动率与互联网上金融新闻的相关性,并且提出了一种有效的股市预测方法。
其他文献
本文在阐述多字词表达式的定义的基础上,对面向特定领域的多字词表达式提取的技术路线进行了详细说明,并在方法、面向对象规模、效率等方面有所创新。利用领域高频词的新技术提取了多字词表达式,其面向的对象是数量为G级大规模的真实文本,且计算时间复杂度是线性的,对所提取的结果进行人工判断后表明,效果较为理想。
如何让计算机根据自然语言的语义表示消解句子乃至段落篇章中的人称代词,一直是自然语言处理的一大难题。本文依据HNC理论的句类表达式和语义块构成的相关知识,提出了一种基于语义结构平行的人称代词消解算法,通过定义句子语义块的层次结构,制定相关的人称代词消解规则和算法,实现了段落中人称代词的指代消解,经开放测试表明该方法具有较好的消解效果。
冠词选择需要综合考虑语言知识、语义知识以及世界知识,是汉英翻译中的一个难点。本文针对传统的基于规则和机器学习的方法只考虑名词短语前冠词选择的问题,将冠词看作一种标记,将该问题形式化的描述为一个序列标注任务,提出一种基于条件随机场的解决策略,选取特征时充分利用词、词性等多层次资源,并引入前后词的互信息。实验采用包含91106个冠词的专利摘要做测试语料,F值达到80%。
本文以实词作为特征,采用Na(i)ve Bayes和最大熵分类模型进行主客观句子的判别。在公开的评测语料MPQA上实验结果显示:Na(i)ve Brdyes相比于最大熵模型取得了较好的性能,两者对主客观句子的判别具有互补性。为了改善间接主观性句子的识别性能,文章提出了三类训练两类判别的分类框架,有效地改善了主客观句子的分析性能。
全自动的语义分析一直是自然语言理解的主要目标之一。通过深层语义分析,可以将自然语言转化为形式语言,从而使计算机能够与人类无障碍的沟通。为达此目的,人们已经进行了多年的努力,然而由于这一问题过于复杂,目前取得的效果并不理想。浅层语义分析是对深层语义分析的一种简化,它只标注与句子中谓词有关的成份的语义角色,如施事、受事、时间和地点等,其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。语义角色标注
在Google应用中使用的语言模型与其公开的Web 1T 5-gram库有很大不同,一个根本的差异体现在是否忽略标点符号。本文以谷歌拼音输入法作为切入点,通过典型性实例揭示了Google语言模型的两个具有普遍性的缺陷:内嵌标点也算连续字串,外部链接视同文档内容。文章给出了弥补这些缺陷的建议。
本文提出了把词典和马尔可夫随机域的潜在语义扩展相结合的新方法,充分的利用了现有词典资源,又克服了单一使用词典方法的局限性和单一使用语义扩展的不确定性,扩展出查询词的同义近义词,上下位词和潜在语义相关词,实验表明该方法能比较好的解决跨语言信息检索中翻译项的歧义问题。
本文在汉语框架语义知识库的基础上,利用语义WEB语言,通过汉语框架语义知识库对问题进行语义分析,并利用旅游本体知识库对答案进行抽取并对答案处理,建立了1004条旅游问句库和旅游本体模型。
对联,雅称“楹联”,俗称对子,它言简意深,对仗工整,平仄协调,是一字一音的汉语语言独特的艺术形式,可以说对联艺术是中华民族的文化瑰宝,如何利用计算机自动生成对联是一个值得研究的方向。本文开发了一种基于前向最大匹配和一阶马尔科夫模型的对联系统。首先对用户输入的上联进行前向最大匹配的切分,进而发现匹配结果的若干候选,利用一阶马尔科夫模型假设和动态规划算法找到和上联最为匹配的下联,初步的实验结果表明我们
查询扩展是信息检索中关键问题之一,查询扩展的有效性决定其检索性能。用户查询日志是大量用户长期查询行为的记录,通过挖掘用户查询与用户日志之间的联系,构建相关词表,从而实现查询扩展。本文提出了一种结合局部上下文分析与用户行为分析的查询扩展方法,该方法在选择相关用户日志时加入用户查询行为信息,获取相关词表时采用局部上下文分析方法。在54000篇语料上的测试表明,该方法相对于未扩展时准确率提高50%以上。