论文部分内容阅读
在视频点播中,关键字查询为观众提供了从海量资源库中搜索目标节目的高效手段,同时Internet业务的开展也需要用户提交信息,这些都需要机顶盒具有中文输入能力。机顶盒主要采用遥控器输入,输入效率低,并因处理能力弱、缺少存储能力无法实现智能输入。为此把云计算技术与机顶盒结合,提出了面向机顶盒的云输入法,通过实现词组学习、次序调整和联想等智能输入,从而来改进输入效率:用户的遥控器按键信息经过机顶盒,通过网络发送到云端服务器,服务器端进行输入法计算,将计算得到的候选字或词反馈给用户进行选择,服务器进一步分析用户的选择,对输入法字词库进行智能化调整。这样利用云端服务器强大的计算能力和存储能力为用户提供了智能输入服务,并降低了机顶盒进行中文输入计算的开销。传统中文词库很大,但是在视频点播应用中,观众主要是对节目名、演员名和剧情内容进行查询,因此输入的内容只有包含在节目元数据内才是有效的。为此利用全文检索技术来提升云输入法的效率:对节目元数据进行中文分词,构建片名词库、演员名库、虚拟角色名库以及剧情词库,同时提供对中文人名输入的支持,观众请求输入法服务时根据节目检索类别只从与之对应的词库中进行查询、提取有效候选词返回给用户。与通用词库相比,一方面词库规模缩小,检索速度提高;另一方面返回的候选词数量减少,减少甚至是避免了用户因候选词过多而造成的翻页查找,提高了输入效率。根据机顶盒输入法对人名库完备率的高要求,本文在对传统的基于姓氏的人名识别方法研究的基础上,对其进行了改进。同时,剧情中的角色名大都是虚拟名字,一般不包含在传统词典中,并且出于其组成结构复杂多样,现有的中文人名识别技术很难将其提取。针对这部分未知人名,本文提出了一种新的中文人名识别算法剩余分词:通过将中文分词处理后剩余的分词碎片的进一步处理,将剧情中的未知人名提取出来。实验测试,剩余分词对剧情中的未知人名提取效果良好。同时,本文对搭建、运营机顶盒的云输入法服务的过程中所涉及的相关工作进行了优化研究,并加以实现,减少了搭建机顶盒输入法服务的工作量,提高了输入法的服务性能与稳定性。