Visualization-aware sampling for very large databases - Citegraph

Paper Info

Title
Visualization-aware sampling for very large databases

Abstract
Interactive visualizations are crucial in ad hoc data exploration and analysis. However, with the growing number of massive datasets, generating visualizations in interactive timescales is increasingly challenging. One approach for improving the speed of the visualization tool is via data reduction in order to reduce the computational overhead, but at a potential cost in visualization accuracy. Common data reduction techniques, such as uniform and stratified sampling, do not exploit the fact that the sampled tuples will be transformed into a visualization for human consumption. We propose a visualization-aware sampling (VAS) that guarantees high quality visualizations with a small subset of the entire dataset. We validate our method when applied to scatter and map plots for three common visualization goals: regression, density estimation, and clustering. The key to our sampling method's success is in choosing a set of tuples that minimizes a visualization-inspired loss function. While existing sampling approaches minimize the error of aggregation queries, we focus on a loss function that maximizes the visual fidelity of scatter plots. Our user study confirms that our proposed loss function correlates strongly with user success in using the resulting visualizations. Our experiments show that (i) VAS improves user's success by up to 35% in various visualization tasks, and (ii) VAS can achieve a required visualization quality up to 400× faster.

Year	DOI	Venue
2015	10.1109/ICDE.2016.7498287	2016 IEEE 32nd International Conference on Data Engineering (ICDE)
Keywords	Field	DocType
scatter plots visual fidelity,aggregation queries,visualization-inspired loss function,clustering,density estimation,regression,stratified sampling,uniform sampling,data reduction,ad hoc data analysis,ad hoc data exploration,interactive visualizations,very large databases,visualization-aware sampling	Density estimation,Data mining,Overhead (computing),Computer science,Tuple,Visualization,Sampling (statistics),Stratified sampling,Cluster analysis,Scatter plot,Database	Journal
Volume	ISSN	Citations
abs/1510.03921	1084-4627	21
PageRank	References	Authors
0.79	31	3

Authors (3 rows)

Cited by (21 rows)

References (31 rows)

Name	Order	Citations	PageRank
Yongjoo Park	1	99	5.93
Michael J. Cafarella	2	2246	144.15
Barzan Mozafari	3	819	38.21

1