A foundation model of vision, audition, and language for in-silico neuroscience

2026-05-05 · Source: Takara TLDR - Daily AI Papers · Field: Science & Research — Artificial Intelligence & Machine Learning, Life Sciences & Biology, Health & Medical Research · Depth: Expert, medium

Summary

TRIBE v2 is a new tri-modal foundation model integrating video, audio, and language to predict human brain activity, addressing the fragmentation of specialized models in cognitive neuroscience. Developed by Jean-Rémi King and colleagues, the model leverages a unified dataset of over 1,000 hours of fMRI data from 720 subjects. TRIBE v2 accurately predicts high-resolution brain responses for novel stimuli, tasks, and subjects, significantly outperforming traditional linear encoding models with several-fold improvements in accuracy. The model also enables "in silico" experimentation, successfully recovering results from seminal visual and neuro-linguistic paradigms established over decades of empirical research. Furthermore, TRIBE v2 extracts interpretable latent features, revealing the fine-grained topography of multisensory integration, positioning AI as a unifying framework for understanding brain functional organization.

Key takeaway

For AI Scientists and Research Scientists developing brain-computer interfaces or cognitive models, TRIBE v2 demonstrates a powerful approach to unifying multimodal data for brain activity prediction. You should consider adopting foundation models that integrate diverse sensory inputs to achieve more generalized and accurate representations of brain function, potentially accelerating in silico experimentation and the discovery of multisensory integration mechanisms.

Key insights

TRIBE v2 unifies vision, audition, and language to predict human brain activity, enabling in silico neuroscience.

Principles

Unified models overcome fragmented cognitive neuroscience.
Foundation models can predict novel brain responses.
In silico experiments validate empirical research.

Method

TRIBE v2 uses a tri-modal foundation model trained on over 1,000 hours of fMRI data across 720 subjects to predict high-resolution brain activity and extract interpretable latent features.

In practice

Predict brain responses to new stimuli.
Conduct virtual neuro-linguistic experiments.
Map multisensory integration topography.

Topics

TRIBE v2
Foundation Models
In-silico Neuroscience
Brain Activity Prediction
Multisensory Integration

Best for: AI Scientist, Research Scientist

Related on AIssential

Open in AIssential →

Editorial summary, takeaway, and curation by AIssential. Original article published by Takara TLDR - Daily AI Papers.