基于文本分类与用户兴趣的个性化搜索与推荐的研究与实现

来源 :中山大学 | 被引量 : 0次 | 上传用户:yuanjinxing1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前Web已经成为人们获取信息的重要途径,但是随着Web上信息的迅速膨胀,再加上Web上信息存在海量性、动态性、非结构性和无序性等特点,这使得人们想要在Web上获取所需要的信息显得相当的困难。因此,如何提供一种有效的方法,以用户为中心,帮助用户有针对性地、高效地获取用户真正需要的、权威的信息就成为了研究者们所面临的重大课题。 本文在对当前搜索引擎技术、权威网页搜索技术、文本分类技术、用户兴趣建模技术、基于协作的推荐技术,还有中文分词技术、网页解析技术、信息过滤技术等相关技术的分析与研究的基础上,对各种技术进行了很好的融合,提出了一种基于文本分类与用户兴趣的个性化搜索与推荐的解决方案,并实现了该方案的系统原型Alpha。 本文研究了权威网页搜索算法HITS,并对其进行了一定的改进;构建了一个具有一定规模的文本分类语料库和较为合理的领域类别体系,并利用该语料库训练出一个文本分类器为个性化搜索结果进行分类;研究并设计了一个基于VSM的用户兴趣模型,并设计了用户长期兴趣和短期兴趣的相互转换与用户兴趣的实时更新;以用户兴趣模型为基础,根据用户多方面、多粒度的兴趣和信息获取习惯提供个性化搜索,并使用基于协作的推荐技术向用户推荐其最可能感兴趣的信息。 在系统原型Alpha中使用了多线程、数据缓冲等来缩短系统的响应时间,使用了Cookie、兴趣实时更新等来方便用户和提高用户的个性化体验。Alpha系统确实能较好的把握用户的兴趣并提供相应的个性化服务,达到了预定的目标。
其他文献
自然免疫系统的主要功能是识别生物体内的所有细胞并区分外部有害抗原和自身组织,从而清除病原并保持有机体稳定;而人工免疫系统是以自然免疫系统为原型,利用自然免疫系统各种原
目前信息化建设呈现出“数据集中化、业务综合化、管理扁平化、决策科学化”的发展趋势,企业信息和数据的集成交换需求越来越强烈。因为数据集成和交换必须解决复杂的数据处理
随着信息技术的发展,传统的模拟电视将逐渐被数字电视所取代,而高清晰数字电视将是未来的发展方向。高清晰数字电视机顶盒作为接收高清晰数字电视的终端设备,配合各种数字或模拟
由波兰的Pawlak教授提出来的经典粗糙集理论,其研究的主要是针对完备的信息系统,且是建立在不可分辨这种等价关系之上的,这种分类对数据的完整性和精确性要求很高。然而当今的数
为了降低企业运行成本,很多医药企业内部以及企业内部与外部建立起了MIS系统,但传统的MIS系统的开发模式将企业业务流程“固化”在软件系统中,如想对业务流程稍做改动,就必须
近年来,数据挖掘己经引起了信息产业界的极大关注,这是快速增长的数据量和相对贫乏的信息量之间矛盾运动的必然结果,对数据挖掘技术进行系统、深入、全面、详尽地研究是全球
随着移动通信业务领域竞争的日趋激烈,电信运营商要想在竞争中立于不败之地,就必须向客户提供满足其需要的高质量的服务,以留住现有客户,同时争取新客户。但在当前激烈的竞争
定性空间推理(Qualitative Spatial Reasoning)是指利用空间理论和人工智能技术对空间对象进行建模、描述和表示,并据此对空间对象间的空间关系进行定性分析和处理的过程,是处
随着信息时代的到来,人们需要处理的数据飞速增长,大量的数据要进行存储与检索。数据不但占用海量的存储空间,而且对其检索也需花费大量的时间与空间。目前针对文本文件压缩和检
逐渐增长的网络流量产生了大量的IP流,了解产生这些流的IP主机的行为,有助于网络管理,例如:性能,安全,带宽,故障和审计等。  本文的研究目标是针对IP主机,计算其流量行为,挖掘热点,