AMES: Approximate Multi-modal Enterprise Search via Late Interaction Retrieval

2026-03-17 · Source: Apple Machine Learning Research · Field: Technology & Digital — Artificial Intelligence & Machine Learning, Data Science & Analytics, Software Development & Engineering · Depth: Advanced, quick

Summary

AMES (Approximate Multimodal Enterprise Search) is a unified, backend-agnostic multimodal late interaction retrieval architecture designed for production-grade enterprise search engines without requiring architectural redesign. It embeds text tokens, image patches, and video frames into a shared representation space using multi-vector encoders, enabling cross-modal retrieval without modality-specific logic. The system employs a two-stage pipeline involving parallel token-level Approximate Nearest Neighbor (ANN) search with per-document Top-M MaxSim approximation, followed by accelerator-optimized Exact MaxSim re-ranking. Experiments on the ViDoRe V3 benchmark demonstrate that AMES achieves competitive ranking performance within a scalable, production-ready Solr-based system.

Key takeaway

AMES provides a production-ready, backend-agnostic architecture for fine-grained multimodal enterprise search, integrating text, image, and video without architectural redesign. It achieves competitive ranking performance via multi-vector encoders and a two-stage pipeline of approximate ANN search and exact MaxSim re-ranking. This enables scalable, unified cross-modal retrieval in systems like Solr, simplifying complex multimodal deployments.

Topics

Multimodal Search
Late Interaction Retrieval
Approximate Nearest Neighbor Search
Enterprise Search Engines
Shared Representation Learning

Best for: AI Scientist, Research Scientist, AI Engineer, Machine Learning Engineer, AI Architect

Related on AIssential

Open in AIssential →

Editorial summary, takeaway, and curation by AIssential. Original article published by Apple Machine Learning Research.