devsearch-reporank
github 存储库的 PageRank 适配
这个怎么运作
我们使用 Google 的 PageRank 的改编版本,其中在随机游走算法中使用了“User Stars Repo”和“Repo Has Contributors”关系。
BigQuery 和 GithubArchive
有大量的“User Stars Repo”和“Repo Has Contributors”关系。 他们几乎不可能用普通的访问令牌从 Github API 爬取。 因此,我们使用获取它们,该存储自 2011 年 1 月 1 日以来的每个 Github 事件。 在这些事件中,我们对Watch Events和Push Events感兴趣。
允许通过访问他们的内容,我们可以在其中执行大型分布式查询。
PageRank 适配
每个步骤由 2 个步骤组成,将用户恶名传播到存储库
1