API Snapshots: Java Core, Memory, Pig, Hive,

Table of Contents

Capabilities Matrix for Distinct Count Sketches

Category Sub-Category Theta Tuple HLL CPC
Space Accuracy Config Min Log Precision (Min LgK) 4 4 4 4
  Max Log Precision (Max LgK) 26 26 21 26
  Min Log Sparse Precision 64 64 26 26
  Max Log Sparce Precision 64 64 26 26
Space Accuracy Factors Entropy bits / slot = b 64 64 4 4.8
  Error Coefficient = C 1 1 1.04 0.69
  HIP Error Coefficient = C     0.83 0.59
Space Accuracy Merit1 Merging 64   4.33 2.31
  Not Merging (HIP)     2.78 1.66
Input Types int Y Y Y Y
  long Y Y Y Y
  double Y Y Y Y
  String Y Y Y Y
  byte[] Y Y Y Y
  char[] Y   Y Y
  int[] Y Y Y Y
  long[] Y Y Y Y
Sketch results Estimate () double double double double
  Upper Bound ( Std Dev ) double double double double
  Lower Bound ( Std Dev ) double double double double
  Estimate (numSubSetRows)   double    
  Upper Bound (Std Dev, numSubset Rows)   double    
  Lower Bound (Std Dev, numSubset Rows)   double    
  Iterator() Y Y Y Y
Set Operations Union Y Y Y Y
  Intersection Y Y    
  Difference Y Y    
  Enables full set expressions Y Y    
  Set Op Result Type Sketch Sketch Sketch Sketch
  Merge different LgK Y Y Y Y
Serialize Operations To Byte Array Y Y Y Y
  To ProtoBuf        
Deserialize Operations Heapify() Y Y Y Y
  Wrap() Y Y Y  
  WritableWrap Y Y Y  
Languages Java Y Y Y Y
  C++ Y Y Y Y
  Python Y Y Y Y
  Binary compatibility across Languages Y Y Y Y
Other Operations and Modes Jaccard Index Y      
  Off-Heap Y Y Y  
  Associative Columns   Y    
  Generic Extensions   Y    

  1. Space Accuracy Merit (Lower is better) = b * C^2 = b * K * RSE^2