论文部分内容阅读
Greplin提供一种云搜索服务,不仅可以找到自己分散在Twitter、Facebook、LinkedIn等各大网站里的帖子、电邮和文件,还能找到朋友账户里分享的你的帖子和文件。
只有19岁的丹尼尔.·格罗斯(Daniel Gross)在他服兵役之前离开以色列,申请了美国企业孵化器Y Combinator并获得了面试的机会,三个月中格罗斯并没有开发出令人满意的项目,但一个小小的灵感改变了故事的情节。他走在去参加聚会的路上,记不起来把地址存到哪里了。在Facebook事件板块里,或是在电子邮件里,还是在他的日程表里?费劲儿从他手机上去搜索所有这些东西是件痛苦的事情。于是,他有了创建一个能对各种分散信息进行聚合搜索的网站想法,于是Greplin网站诞生了,并且在当时马上获得了78万美元的天使投资。
Greplin的服务就像是一个桌面搜索,它编制索引做出可搜索的在线社交网络账户,即一些人所说的“私人云”。免费版可以索引出来自Twitter、Facebook、谷歌邮箱(Gmail)、谷歌文件和日程(Google Docs & Calendar)、Dropbox和LinkedIn网站的账户信息,而付费版本加入了其他资源和更多的索引空间。
如何工作
Greplin是云服务,所以没有需要安装的软件和要记录的文件,只是一个从任何电脑或手机都可以登录的网页。它提供一个安全的(安全超文本传输协议)网页用以搜索和显示结果。
结果经过对来源和信息类型进行选择性筛选,以各种形式呈现出来,比如数据流、消息、人物、事件和文件夹。甚至在Dropbox和“谷歌文件”的PDF文档里进行搜索也简单明了。
并且,Greplin的搜索速度很快。输入几个字母后,结果在不到一秒的时间里就可以显示出来。再添加上其他字母后,改变立刻就能显示出来。在大多数情况下,匹配词用黄色高亮显示,所以很容易辨认在结果里显示的特定条目,而且显示结果里还有清楚的来源信息,比如是来自Facebook 还是Twitter。在每个节段末尾,还有一个选项去获取更多的消息、数据流和人物,但是这只在还有更多这类条目的时候才可以使用。Greplin的搜索功能是整合性搜索“零散结果”设计模式中一个很棒的工具。
为了使Greplin能够获得一个账户中的信息和好友,系统使用Facebook Connect 体系,对于其他服务则使用开放式协议“OAuth”。这使得设置过程极为简单并且十分安全:选择一项服务把浏览程序发送给这项服务以授权给Greplin。
搜索引擎本身基于开源全文搜索引擎Lucene的核心功能,它专门用来进行私人信息搜索。特别之处是,Greplin的搜索自动进行左截断通配符搜索,例如以“lib”开始搜索会与“library”、“liberty”和“Libya”的条目匹配,而不是“alibi”或“glib”。而这并不是谷歌和其他网络搜索引擎通常工作的方式,Greplin速度很快而且单词是高亮显示的,所以进程一清二楚。
核心的搜索引擎Lucene的搜索规模可以大至数亿文件,它已经应用于LinkedIn、Digg、Netflix和Yelp等大型网站。并且,因为目前Greplin在亚马逊的云服务中执行,公司可以方便地为更多用户加入更多服务器,给每一批新用户安排一个新服务器。网页搜索引擎和企业搜索引擎做不到这一点,因为相关性依赖于整个索引中的文件频率,这正是要求复杂性分配和分散型体系结构的地方。更新索引所需时间应该是即时到20分钟。在一个为期三天的测试中,加入一个新资源很快,但是它不能清除已在谷歌邮箱里标记出来的邮件列表中的垃圾邮件。
Greplin对共享账户和机构账户来说是一个非常好的应用,像是那些小企业、本地图书馆和非营利机构。
问题依然明显
对于个人应用,隐私和安全是更大的问题,Greplin也在努力解决这个网络世界的通病。使用OAuth和Facebook Connect 系统意味着Greplin不会为其他网站储存用户名和密码,这样即使它们被黑了,尽管所有索引信息可能会暴露,但那些网站上的账户也不会受到攻击。格罗斯表示,“我们绝没有盘算要出售任何私人身份信息。我们用户的隐私对我们而言是至高无上之重要的。”这在Greplin网站的书面政策里也清晰地言明了,然而,书面政策里并没有对聚合搜索或趋势,以及许多公司肯定会挖掘和出售的非个人数据进行任何说明。不过,Greplin会在必要时于20分钟之内删除所有来自索引的信息,这样也可以让用户更加安心一些。
还有一点值得改进,Greplin搜索结果是公共内容和私人内容、新内容和旧内容的混合。搜索可以找到Twitter时间表、Twitter私密消息、谷歌邮箱公共列表和私人消息,以及好友锁定的Facebook里的任何信息。各种信息的隐私级别混合在一起,希望以后至少能够给隐私条目加上标签。
安全性方面还有一个需要注意的是,Greplin的默认页面里充满了大量Java脚本,就像谷歌邮箱。针对“非智能”手机有一个更简易的页面,尽管它也有Java脚本。目前,关于这个请求还没有错误提示信息,所以它会毫无预示地发生故障,这对使用旧版本浏览器和对安全担忧的用户会是一个问题。格罗斯表示,他们准备用一个屏蔽脚本插件标签来提醒非Java脚本用户。
2011年2月中旬,该网站获得了来自红杉资本的400万美元投资,并且对全世界开放了它的服务。大量的商业出版物和网站对Greplin进行报道,俨然已经成为了一个社交网络领域的新热点。一个名为skypen的Twitter用户这样评价Greplin:“搜索Facebook比Facebook自身效果更好,搜索LinkedIn比LinkedIn自身效果更好,搜索Twitter比Twitter自身效果更好。太棒了。”
虽然到目前为止Greplin获得了很多的认可,但其在商业计划上还存在一个巨大漏洞,即这种服务太容易复制了。它所应用的这些技术中没有一项是特别新颖或革命性的,这世界上有成千上万的软件研发者,他们有能力(也可能会)把同样种类的各要素整合到一起:OAuth、Facebook Connect、Lucene/Solr或其他大规模搜索引擎,以及一个简单的使用界面。
其他模仿者可能不会像Greplin运行得那样好,但是他们有可能改变思路,比如改换界面、创建一个智能手机应用程序、调整相关规则,以及与其他资源链接,包括桌面搜索、企业搜索和网页搜索。
未来竞争者可能包括微软、苹果,特别是谷歌,它太想成为每个人的私人云数据的入口了。但是,还有一个巨大障碍—Facebook也想成为那个入口,并且它可能不会给一个强有力的竞争者访问权限。这对Greplin来说肯定将是一段坎坷之旅。
只有19岁的丹尼尔.·格罗斯(Daniel Gross)在他服兵役之前离开以色列,申请了美国企业孵化器Y Combinator并获得了面试的机会,三个月中格罗斯并没有开发出令人满意的项目,但一个小小的灵感改变了故事的情节。他走在去参加聚会的路上,记不起来把地址存到哪里了。在Facebook事件板块里,或是在电子邮件里,还是在他的日程表里?费劲儿从他手机上去搜索所有这些东西是件痛苦的事情。于是,他有了创建一个能对各种分散信息进行聚合搜索的网站想法,于是Greplin网站诞生了,并且在当时马上获得了78万美元的天使投资。
Greplin的服务就像是一个桌面搜索,它编制索引做出可搜索的在线社交网络账户,即一些人所说的“私人云”。免费版可以索引出来自Twitter、Facebook、谷歌邮箱(Gmail)、谷歌文件和日程(Google Docs & Calendar)、Dropbox和LinkedIn网站的账户信息,而付费版本加入了其他资源和更多的索引空间。
如何工作
Greplin是云服务,所以没有需要安装的软件和要记录的文件,只是一个从任何电脑或手机都可以登录的网页。它提供一个安全的(安全超文本传输协议)网页用以搜索和显示结果。
结果经过对来源和信息类型进行选择性筛选,以各种形式呈现出来,比如数据流、消息、人物、事件和文件夹。甚至在Dropbox和“谷歌文件”的PDF文档里进行搜索也简单明了。
并且,Greplin的搜索速度很快。输入几个字母后,结果在不到一秒的时间里就可以显示出来。再添加上其他字母后,改变立刻就能显示出来。在大多数情况下,匹配词用黄色高亮显示,所以很容易辨认在结果里显示的特定条目,而且显示结果里还有清楚的来源信息,比如是来自Facebook 还是Twitter。在每个节段末尾,还有一个选项去获取更多的消息、数据流和人物,但是这只在还有更多这类条目的时候才可以使用。Greplin的搜索功能是整合性搜索“零散结果”设计模式中一个很棒的工具。
为了使Greplin能够获得一个账户中的信息和好友,系统使用Facebook Connect 体系,对于其他服务则使用开放式协议“OAuth”。这使得设置过程极为简单并且十分安全:选择一项服务把浏览程序发送给这项服务以授权给Greplin。
搜索引擎本身基于开源全文搜索引擎Lucene的核心功能,它专门用来进行私人信息搜索。特别之处是,Greplin的搜索自动进行左截断通配符搜索,例如以“lib”开始搜索会与“library”、“liberty”和“Libya”的条目匹配,而不是“alibi”或“glib”。而这并不是谷歌和其他网络搜索引擎通常工作的方式,Greplin速度很快而且单词是高亮显示的,所以进程一清二楚。
核心的搜索引擎Lucene的搜索规模可以大至数亿文件,它已经应用于LinkedIn、Digg、Netflix和Yelp等大型网站。并且,因为目前Greplin在亚马逊的云服务中执行,公司可以方便地为更多用户加入更多服务器,给每一批新用户安排一个新服务器。网页搜索引擎和企业搜索引擎做不到这一点,因为相关性依赖于整个索引中的文件频率,这正是要求复杂性分配和分散型体系结构的地方。更新索引所需时间应该是即时到20分钟。在一个为期三天的测试中,加入一个新资源很快,但是它不能清除已在谷歌邮箱里标记出来的邮件列表中的垃圾邮件。
Greplin对共享账户和机构账户来说是一个非常好的应用,像是那些小企业、本地图书馆和非营利机构。
问题依然明显
对于个人应用,隐私和安全是更大的问题,Greplin也在努力解决这个网络世界的通病。使用OAuth和Facebook Connect 系统意味着Greplin不会为其他网站储存用户名和密码,这样即使它们被黑了,尽管所有索引信息可能会暴露,但那些网站上的账户也不会受到攻击。格罗斯表示,“我们绝没有盘算要出售任何私人身份信息。我们用户的隐私对我们而言是至高无上之重要的。”这在Greplin网站的书面政策里也清晰地言明了,然而,书面政策里并没有对聚合搜索或趋势,以及许多公司肯定会挖掘和出售的非个人数据进行任何说明。不过,Greplin会在必要时于20分钟之内删除所有来自索引的信息,这样也可以让用户更加安心一些。
还有一点值得改进,Greplin搜索结果是公共内容和私人内容、新内容和旧内容的混合。搜索可以找到Twitter时间表、Twitter私密消息、谷歌邮箱公共列表和私人消息,以及好友锁定的Facebook里的任何信息。各种信息的隐私级别混合在一起,希望以后至少能够给隐私条目加上标签。
安全性方面还有一个需要注意的是,Greplin的默认页面里充满了大量Java脚本,就像谷歌邮箱。针对“非智能”手机有一个更简易的页面,尽管它也有Java脚本。目前,关于这个请求还没有错误提示信息,所以它会毫无预示地发生故障,这对使用旧版本浏览器和对安全担忧的用户会是一个问题。格罗斯表示,他们准备用一个屏蔽脚本插件标签来提醒非Java脚本用户。
2011年2月中旬,该网站获得了来自红杉资本的400万美元投资,并且对全世界开放了它的服务。大量的商业出版物和网站对Greplin进行报道,俨然已经成为了一个社交网络领域的新热点。一个名为skypen的Twitter用户这样评价Greplin:“搜索Facebook比Facebook自身效果更好,搜索LinkedIn比LinkedIn自身效果更好,搜索Twitter比Twitter自身效果更好。太棒了。”
虽然到目前为止Greplin获得了很多的认可,但其在商业计划上还存在一个巨大漏洞,即这种服务太容易复制了。它所应用的这些技术中没有一项是特别新颖或革命性的,这世界上有成千上万的软件研发者,他们有能力(也可能会)把同样种类的各要素整合到一起:OAuth、Facebook Connect、Lucene/Solr或其他大规模搜索引擎,以及一个简单的使用界面。
其他模仿者可能不会像Greplin运行得那样好,但是他们有可能改变思路,比如改换界面、创建一个智能手机应用程序、调整相关规则,以及与其他资源链接,包括桌面搜索、企业搜索和网页搜索。
未来竞争者可能包括微软、苹果,特别是谷歌,它太想成为每个人的私人云数据的入口了。但是,还有一个巨大障碍—Facebook也想成为那个入口,并且它可能不会给一个强有力的竞争者访问权限。这对Greplin来说肯定将是一段坎坷之旅。