PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

2026-06-19 · Source: cs.CL updates on arXiv.org · Field: Technology & Digital — Artificial Intelligence & Machine Learning, Computer Vision · Depth: Expert, extended

Summary

PerceptionDLM, a multimodal diffusion language model (DLM) released on June 17, 2026, is designed for efficient parallel region perception, addressing the efficiency bottleneck of autoregressive MLLMs in multi-region captioning. Built on PerceptionDLM-Base, which outperforms LLaDA-V on 15 of 16 benchmarks, PerceptionDLM introduces region prompting and structured attention masking to enable simultaneous generation of descriptions for multiple masked regions within a single denoising process. This architecture achieves up to a 3.44x throughput speedup and a 3.5 times inference efficiency gain in dense perception scenarios, reducing total inference time on ParaDLC-Bench to 276 seconds compared to 479 seconds for GAR and 718 seconds for PixelRefer. It maintains competitive caption quality, achieving 62.4% average accuracy on the new ParaDLC-Bench, which includes 2345 manually verified questions and 5.7M multi-mask caption data.

Key takeaway

For Machine Learning Engineers developing multi-region visual perception systems, PerceptionDLM offers a significant efficiency advantage over autoregressive models. You should consider adopting diffusion-based architectures with region prompting and structured attention masking to achieve parallel caption generation, drastically reducing inference latency for dense perception tasks. This approach allows you to scale multi-region analysis without the linear cost growth of sequential methods.

Key insights

Multimodal diffusion language models can achieve parallel, efficient multi-region perception by leveraging non-autoregressive generation.

Principles

Diffusion models enable intrinsic token-level parallelism.
Region-aware design prevents cross-region interference.
Freezing the vision encoder preserves broad visual understanding.

Method

PerceptionDLM integrates a pretrained vision encoder with a diffusion language backbone, using region prompting and structured attention masking for parallel multi-region caption generation in a single denoising process.

In practice

Use region prompting for identity encoding.
Apply structured attention masking to isolate regions.
Employ dynamic resolution for high-res images.

Topics

Multimodal Diffusion Models
Parallel Region Perception
Image Captioning
Visual Instruction Tuning
ParaDLC-Bench
Inference Efficiency

Code references

MSALab-PKU/PerceptionDLM

Best for: AI Engineer, Research Scientist, AI Scientist, Machine Learning Engineer, Computer Vision Engineer

Related on AIssential

Open in AIssential →

Editorial summary, takeaway, and curation by AIssential. Original article published by cs.CL updates on arXiv.org.