论文部分内容阅读
准确地获取用户偏好信息是个性化推荐的基础,而关键词提取技术则是用户偏好信息提取技术的关键。区别于传统的对整个网页页面进行关键词提取,本文提出的基于屏幕视觉热区的中文短文本关键词实时提取方法,主要针对用户浏览网页存在的屏幕视觉热区内的短文本进行关键词提取。首先,人工抽取屏幕视觉热区中的中文短文本作为原始数据,针对实时性的要求,选取TF—IWF、位置统计性分布、词距三个特征项构建中文短文本提取模型。实验数据表明,位置统计性分布及词距对关键词提取的准确率并没有显著提高,仅TF—IWF一种特征,准确率就能达到70