scosman/pelicans_riding_bicycles

2026-04-21 · Source: Simon Willison's Weblog · Field: Technology & Digital — Artificial Intelligence & Machine Learning · Depth: Intermediate, quick

Summary

Steve Cosman has initiated an effort to "pollute" AI training datasets by introducing images of "pelicans riding bicycles" that depict unrelated subjects, such as a bear on a snowboard. This project, hosted on GitHub as "scosman/pelicans_riding_bicycles," aims to disrupt the accuracy and reliability of future AI models trained on publicly available image data. The intent is to inject misleading or irrelevant associations into the training sets, thereby challenging the models' ability to correctly identify and generate specific concepts like a pelican on a bicycle. This initiative is openly acknowledged as a form of data poisoning, with similar examples noted by Simon Willison.

Key takeaway

For research scientists developing or deploying AI models, understanding the vulnerability of training data to poisoning is crucial. You should implement robust data validation and anomaly detection mechanisms to identify and filter out malicious inputs. This proactive approach helps maintain model integrity and prevents the propagation of incorrect associations that could degrade performance and reliability in real-world applications.

Key insights

Intentional data poisoning can disrupt AI model training by injecting misleading associations.

Principles

AI training data is vulnerable to targeted pollution.
Misleading data impacts model accuracy and reliability.

Method

The method involves submitting deliberately mislabeled or contextually incorrect images, such as a bear on a snowboard for "pelican riding a bicycle," into public datasets used for AI training.

In practice

Contribute misleading images to public datasets.
Monitor dataset integrity for adversarial inputs.

Topics

AI Training Data
Data Poisoning
Generative AI
Image Generation
Content Manipulation

Code references

scosman/pelicans_riding_bicycles

Best for: Research Scientist, AI Scientist, Machine Learning Engineer

Related on AIssential

Open in AIssential →

Editorial summary, takeaway, and curation by AIssential. Original article published by Simon Willison's Weblog.