快捷搜索:

Web 2.0社交相关性排序算法探秘

FriendFeed近来推出了搜索功能,信托Facebook不久之后也会跟进。

对社交收集的“活动流(streams of activities,指人们在社交收集中所从事的一系列活动信息)”进行实时搜索是当前的一大年夜热点,包括谷歌和微软在内的所有互联网企业都意识到,将自己信赖的人当做过滤器来应用的代价所在。实时搜索曾一度被称作社交搜索,如今它正在徐徐成长强盛年夜。它将首先被用于“活动流”,随后则会被利用于全部收集。

社交相关性排序算法(Social Relevancy Rank)即将出生。届时,当你搜索“活动流”时,所得的结果不会再按照光阴顺序排列,而是会根据每条信息与用户的“社交图谱(social graph)”之间的相关性来排列。也便是说,那些与你关系更为慎密的人将会排在前面。这种模式的流程若何?实际上,必要经由过程一个算法,就像谷歌的Page Rank一样。

以石友为依据

将你所关注的人排在搜索结果的前端是一种显而易见的做法,但Twitter今朝仍未采纳。现在,当你在Twitter上搜索“Wilco”时,所得的结果会按照光阴先后排列。这种要领着实并没有很好的表现“相关性”,由于搜索结果中的多半信息都来自于陌生人。但假如所列信息来自于你所关注的人,那么搜索结果就将更为有用。

Twitter今朝并不支持这种模式,但FriendFeed却已经很好地采用了这一模式。FriendFeed会根据用户的社交图谱对搜索结果进行过滤。对付FriendFeed而言,要做到这一点并不艰苦。一方面,它懂得你所关注的人;另一方面,它会将高端feed搜索技巧整合到了用户的社交图谱中。

这种要领听起来很很棒,但也存在一个问题。搜索“Wilco”时,效果不错,由于这支乐队刚刚推出了新专辑,然则很多其他的关键词却无法返回任何结果。事理很简单,你在Facebook上的石友以及在Twitter上所关注的人弗成能对你所感兴趣的每个话题都颁发评论。问题在于数据稀疏,也便是短缺可托赖的不雅点。

探求更多半据滥觞

很显着,想要办理数据稀疏的问题就必要更多的数据。办理规划之一便是整合其他可托赖的资本,比如拓宽社交图谱。例如,搜索结果所列的内容未必来自于你直接关注的人,它还会包孕那些你关注的人所关注的其他人。在Facebook中,便是所谓的“石友的石友”。你或许会觉得,自己并不认识这些人的不雅点,因而并不相信他们,但“六度分隔理论”注解,人们的社交圈都很小,是以,这类内容平日会拥有相同的代价。

还有一种社交相关性排序算法是将兴趣类似的人整合到一路,这也便是所谓的“兴趣邻居(taste neighbors)”。这种措施在垂直社交收集中异常普遍,例如Last.fm、Flixster和Goodreads等。这些收集都能够赞助你懂得,除石友之外还有哪些人与你类似。然而,这种运算资源较高,而且异常耗时。假如Twitter要完成类似的功能,就必要根据人们所宣布的链接和Twitter信息的语义来鉴定。纵然这一问题异常棘手,但跟着光阴的推移,应该可以办理。

群体身分

除了应用社交图谱的“第二度”和“兴趣邻居”外,社交相关性排序还可以为具有影响力的人付与更高的权重。在短缺任何其他衡量标定时,那些拥稀有十万名关注者的人有可能会比其他陌生人具备更高的相关性。应用关注者的数量来衡量残剩的“活动流”是一种不错的要领。

总之,将来自陌生人的无数信息机器地整合在一路并非上策。正如人们很少会查看谷歌搜索第一页今后的内容一样,以光阴顺序排列的Twitter信息也将很快令人厌倦。社交相关性排序必要将群体的合营感想熏染斟酌进来,以此来供给一种过滤标准,从未为你供给更多的结果。

完美算法

完美的社交相关性排序算法并不存在,纵然Page Rank也不敷完美,但我们依然感觉它很有用。正如Page Rank在互联网中所起的感化一样,假以时日,社交相关性排序也将赞助我们懂得社交收集中无穷无尽的“活动流”的意义所在。这种排序将会对我们懂得石友的要领孕育发生深远的影响。

假以时日,社交相关性排序还将改变通用收集搜索。如今,通用收集搜索的结果是自动根据相关性和新鲜度进行排序的,一旦将社交相关性排序斟酌进去,搜索结果就将根据社交元素从新排序。

您可能还会对下面的文章感兴趣: