datasketch:大数据看起来很小 datasketch提供给您概率性的数据结构,这些数据结构可以超快地处理和搜索大量数据,而几乎不会降低准确性。 该软件包包含以下数据草图: 数据草图 用法 估计Jaccard相似度和基数 估计加权Jaccard相似度 估计基数 估计基数 提供了以下数据草图索引以支持亚线性查询时间: 指数 对于数据草图 支持的查询类型 MinHash,加权MinHash 提卡阈值 MinHash,加权MinHash Jaccard Top-K 最小哈希 遏制阈值 datasketch必须与Python 2.7或更高版本以及NumPy 1.11或更高版本一起使用。 Scipy是可选的,但有了它,LSH初始化可以更快。 请注意, 和也支持Redis和Cassandra存储层(请参见 )。 安装 要使用pip安装datasketch: pip insta
2023-03-26 14:13:18 776KB python search weighted-quantiles lsh
1