论文部分内容阅读
社会化标签作为web2.0中的一种重要技术,最显著的贡献在于完成了用户从单纯的信息接收者到主动的信息发布者的角色转换,深刻地影响着互联网上的信息传播模式。通过标签,其他网站或网民可以便捷地对信息进行分类。标签的作用类似于搜索技术中的关键字,是对信息的个性化描述。由于一般情况下无法对网络上海量的信息进行全文检索(只有功能强大的大型搜索引擎才能勉强做到),因而,具有标签的信息要比没有标签的信息更容易传播。网民通过“贴”标签来描述信息,创造易于被他人检索的信息,同时也通过标签的描述来查找自己感兴趣的信息。并且由于聚合内容技术与标签技术的有机结合,标准化的信息接口降低了信息传播和信息再次加工的成本,从而降低了人们在获取个性化信息上的时间成本和经济成本。通过社会化书签,可以用多个标签作为关键字,对所喜爱的网站或网页(由网络中的书签所指向)进行标注,并与其他网民分享。社会化标签的作用类似于分类式的搜索引擎,其区别在于社会化标签的创建者是一个个普通网民,而不是什么实力雄厚的公司,因而具有更强的实效性,甚至在分类上更为准确。随着web2.0技术影响力的不断扩大,web上可以挖掘的资源更加丰富。结合社会化标签来优化搜索引擎的检索效率不但能够快速准确的定位用户所需的信息,而且能够满足用户对信息个性化方面的需求,从而在很大程度上改善了用户的搜索体验,因此对这部分内容的研究也将具有重要的商业价值。论文的主要工作包括以下三个方面:(1)基于社会化标注内容的研究本文主要根据标签的语义来判断社会化标注的内容。通过比较标签与网页内容之间、标签与标签之间的语义关系,确定标签与网页内容之间、标签与标签之间的语义相似度,并根据该相似度对搜索引擎用户进行推荐,提高其对搜索的满意度,从而达到优化搜索引擎的目的。(2)基于社会化标注重要性的研究衡量标签的重要性有多个方面,本文主要考察的角度是时间。通过对社会化标签网下新的数据源“标签”的时间因素加以分析和利用,从时间的角度衡量标签的新颖程度和重要程度,提出了一种新的基于社会化标签的网页排名算法TagRank,该算法通过对网页上用户的标注行为进行挖掘,计算标签的“热度”,从而更客观的反应出标签的真实质量,以此提高网页排名的准确性。实验证明该算法是切实有效的。(3)基于社会化标注个性化的研究基于社会化标注个性化研究不需要用户的主动参与,而是通过对共现tag的数据加以过滤,对用户的标注数据聚类并获取用户的偏好,达到对tag进行层次上分类的效果,从而得到一个关于用户的特征,根据该特征向用户有的放矢的推荐,最终成功的为用户提供个性化服务。