基于相关主题建模的短文本过滤引擎研究与应用

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:Miss_Han
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时下,随着互联网络的全面普及与应用,人们的生活早已进入信息革命时代。该时代最显著的特征就是大量的、各种形式、不同内容的信息扑面而来。电子商务领域是数据以文本形式存在最多的领域。对该领域进行数据挖掘研究,存在以下几个挑战:(1)该领域的文字篇幅较短,内容上往往描述一个确定的事件或一个已知的物体。传统的主题挖掘模型,如相关主题模型,对篇幅较短的文本数据具有不适应性,因而需要提出适合这类短文本数据的文本挖掘模型和算法,对文本内容和主题进行有效的提取和概括;(2)该领域中的大部分内容为“用户生成内容”,其中包含个人观点和情感倾向,它对内容的优质程度具有一定影响,因此需要对用户进行分析和建模,挖掘隐含的情感倾向;(3)当数据规模巨大时,往往存在众多的垃圾用户和垃圾内容,一方面需要算法能够自动过滤无用信息,保留优质信息,进行信息的简化,另一方面需要当数据量巨大时,算法依旧具有高效性和可伸缩性。本文针对以上问题做了以下3点工作:1.以相关主题模型为基础,对主题提取和预测功能进行了优化,使其在对短文本特征提取和主题预测方面具有较好的适应性。提出了特征提取优化算法和主题预测优化算法,设计算法的输入输出,并对这两种算法在数据主题相关程度识别和未知短文本主题预测方面进行实验验证。2.为了挖掘短文本数据中的意见倾向,提出了考虑“短文本发送者-短文本描述对象-短文本描述内容”三重关系的综合模型。该模型结合了文本内容、描述对象特征和用户偏见等关键特征,对用户行为进行有效建模,构建向量空间矩阵。基于该模型提出了两种文本内容处理算法,使模型不但对短文本数据的基本属性有较好的识别和处理,还能够识别用户的意见倾向。利用电子商务数据对该部分提出的两种算法进行了实验验证。3.在所提出模型的基础上,增加了短文本数据的综合效用计算功能,提出了短文本数据综合效用评价算法,该算法能够在数据规模较大时保证数据处理效率,完成数据内容优质程度判断,进而对短文本数据进行过滤筛选,将优质优质信息进行反馈和推荐。
其他文献
<正> 藏医学是中华传统医学的重要组成部分,它具有完整的理论体系和独特的治疗方法,引人注目的藏药,使藏医学在世界医林中独树一帜。在“回归大自然”,采用天然药物潮流影响
近年来,“祭奠权”纠纷案件逐渐增多,但祭奠权并不是法律明文规定的权利,因此,因祭奠引发的纠纷常陷入无法可依的状态中,且由于法官对祭奠权的认知不同,裁判标准不同,裁判结果有的也截然相反,从而影响司法统一与权威。所以,作为新兴权利的祭奠权,值得我们研究和探索。文章总体结构以“提出问题—分析问题—解决问题”的逻辑方式展开,采用类案研究的方式,重点对不同类型的祭奠纠纷案件进行归纳,讨论在司法实践中主要采取
气功是几千年来在复杂的中国历史文化环境中形成发展起来的,因而形成了各种纷纭的流派与类别。本文在参考大量气功史料基础上,将古代气功从动作、姿势、功能、功法机制、文化
期刊
研究背景皮肤鳞癌(CSCC)是起源于角质形成细胞、仅次于基底细胞癌的第二常见的皮肤恶性肿瘤[1]。引起发病的原因有:紫外线照射、电离辐射、化学致癌物以及慢性刺激等,其中主
如今,随着城市化建设的发展,有效的推动了建筑行业的发展,其成为国民经济发展过程中比较重要的组成部分。由于城市用地有限,使高层建筑如雨后春笋般涌现,但是在高层建筑工程
<正>望子成龙的父母们无不希望子女受到良好的教育,如何为子女尽早筹集足够的教育金?教育金保险也是可以考虑的理财方式之一。
从都市农业的产业形态入手,对不同都市农业规划模式进行分类探讨。以成都市为实例,结合实际情况,对成都市的都市农业产业形态、规划模式等进行分析研究,继而对其发展前景进行
<正>校园文化是指学校所具有的特定的精神环境和文化氛围,它包括校园建筑设计、校园景观、绿化美化等这样一些静态校园文化,也包括学校在长期的办学实践中形成的培养目标、办
[目的]探究不同手术入路克氏针固定治疗小儿GartlandⅢ型肱骨髁上骨折的疗效。[方法]选择2012年1月~2015年1月于本院进行手术的93例GartlandⅢ型肱骨髁上骨折患儿,随机分为后
本文以常见储粮害虫:米象、玉米象、杂拟谷盗、赤拟谷盗、锯谷盗、谷蠹各虫态为实验试虫,采用XOGZ-7 kW连续隧道式微波干燥线,将试虫与1 kg稻谷充分混合后,进行不同微波条件