Learning from a Biased Sample

2022-09-05 · Source: stat.ML updates on arXiv.org · Field: Technology & Digital — Artificial Intelligence & Machine Learning, Data Science & Analytics · Depth: Expert, quick

Summary

A new model of sampling bias, termed conditional Γ-biased sampling, addresses scenarios where training data groups are under- or over-represented. This model allows observed covariates to arbitrarily affect sample selection probability, while bounding unexplained variation by a constant factor. To counter this, a distributionally robust optimization (DRO) framework is proposed, designed to learn decision rules that minimize worst-case risk under a family of test distributions consistent with Γ-biased sampling. The method leverages a result from Rockafellar and Uryasev, showing equivalence to an augmented convex risk minimization problem. Statistical guarantees are provided via the method of sieves, and a deep learning algorithm with a robust loss function is introduced. Empirical validation includes predicting mental health scores from health survey data and ICU length of stay.

Key takeaway

For AI Scientists developing predictive models from potentially biased datasets, traditional empirical risk minimization may yield suboptimal rules at deployment. You should consider adopting distributionally robust optimization frameworks, such as those incorporating conditional Γ-biased sampling, to build more resilient models. Explore deep learning algorithms that integrate robust loss functions to minimize worst-case risk, ensuring better performance when facing real-world data distribution shifts.

Key insights

Sampling bias can be mitigated by learning decision rules robust to worst-case risk under a conditional Γ-biased sampling model.

Principles

Training data bias, from observable or unobservable attributes, degrades model performance.
Empirical risk minimization is insufficient for biased samples.
Distributionally robust optimization offers a framework for bias-resilient learning.

Method

Proposes conditional Γ-biased sampling, then applies distributionally robust optimization to minimize worst-case risk, equivalent to augmented convex risk minimization. A deep learning algorithm with a robust loss function is used.

In practice

Predict mental health scores from survey data.
Predict ICU length of stay.

Topics

Sampling Bias
Distributionally Robust Optimization
Deep Learning
Risk Minimization
Conditional Γ-biased sampling
Statistical Guarantees

Best for: AI Scientist, Research Scientist

Related on AIssential

Open in AIssential →

Editorial summary, takeaway, and curation by AIssential. Original article published by stat.ML updates on arXiv.org.