【摘 要】
:
随着Web2.0的兴起与普及,网络文本内容激增,针对文本的情感分析是目前文本挖掘领域的研究热点,可归属于文本分类问题。本文采用机器学习的方法,针对文本不同粒度的极性分类、
论文部分内容阅读
随着Web2.0的兴起与普及,网络文本内容激增,针对文本的情感分析是目前文本挖掘领域的研究热点,可归属于文本分类问题。本文采用机器学习的方法,针对文本不同粒度的极性分类、情感分类以及针对主题检索中的查询构建进行有益的尝试,取得了如下成果:(1)本文提出了一种基于CRF的词语级中文情感倾向分类模型,从“喜、怒、哀、惧”四类分别对情感词的活跃度进行量化。本文主要关注文本分类中的特征选择问题及基于CRF的分类模型,对词的词性、句法分析、否定词、转折词、程度词特征和位置信息的使用进行了分析,基于COAE评测语料的实验结果证明了此方法在分类的准确率和召回率方面的有效性。(2)本文提出了一种基于最大熵的句子级中文情感极性分类模型,最终得到正倾向、负倾向、客观三类句子。本文关注词汇的Unigram特征、Bigram特征、否定词特征和程度词特征以及权值计算的比较,基于COAE评测语料的实验结果证明了此方法在分类的准确率和召回率方面的有效性。(3)情感分析技术与检索技术紧密相关,本文提出了一种基于CRF的半监督查询构建方法,并与手动构造查询和基于无监督的机器学习提取查询词这两种方法进行比较。最终,我们将文本检索与段落检索结合,弥补为了提高精度而造成召回率的损失。实验基于Blog Track语料并且取得了良好的效果。
其他文献
非非主义诗歌流派作为当代文学史上一个重要的诗歌创作群体,从1986年创立至今,经历了20多年的发展,其诗歌创作以1989年为界呈现出不同的思想风貌,非非主义诗歌不同发展阶段的
东干小说反映了东干人文化生活的各个方面,是东干书面文学的重要体裁。中国文化是东干小说家重要的创作资源,东干作家充分利用这个资源凸显其文学的民族特色。另一方面,中国
对作为个体的人的存在意义的探寻无疑是世纪之交文学所面临的最重要的问题之一。同时,认同危机作为世纪末的时代病具有相当的普遍性。本文试图通过比较朱少麟与王安忆的小说
目的了解高龄老人身体健康、经济状况、家庭和社会保障、日常生活能力及医疗服务的需求,以便对社区高龄老人的综合健康质量作出正确评估。方法采用整群抽样方法对奉贤区按东
中国古代诗歌源远流长,在唐朝发展至顶峰。从艺术上看,唐诗经过初唐的发轫,盛唐的鼎盛,中唐的转捩,到晚唐时期而渐趋化境。晚唐诗人更加注重诗歌艺术个性的倾向性,咏史、怀古
政府信息公开行为司法审查与一般行政案件相比,在不少方面具有特殊性:原告资格更加宽泛;被告除了传统的行政机关和法律、法规、规章授权的组织外,公共事业单位也可以成为被告
废名和他的小说在现代文学史上自成一派,特立独行。他虽然称不上是现代文学史上的一位大作家,然而,他创作的小说却极具个性特点,对现代文学的发展亦产生了不可忽视的影响。纵
文章介绍了费率招标的概念和适用范围,指出了采用费率招标在工程项目招标、合同签订、建设实施等不同阶段存在的风险,并从造价控制的角度对各阶段的风险控制提出了相关建议。