SeamEdit: A Black-Box VLM-Agnostic Pipeline for Large-Image Semantic Editing

2026-06-11 · Source: Computer Vision and Pattern Recognition · Field: Technology & Digital — Artificial Intelligence & Machine Learning, Computer Vision · Depth: Expert, quick

Summary

SeamEdit is a novel, training-free, and model-agnostic pipeline designed for semantic region editing of large images, addressing common failure modes encountered when applying closed-source Vision-Language Models (VLMs) to tiled editing. These issues include semantic deformation, canvas-level alignment drift, and visible seam artifacts. SeamEdit treats any VLM with inpainting capability as a black-box oracle, mitigating these problems through a five-stage post-hoc process. This pipeline involves overlay-based tile decomposition, black-box VLM inpainting, geometric and color-consistency correction, seam-risk-based multi-candidate ranking, and dynamic-programming curved seam fusion. The method effectively reduces seam visibility and enables semantic modification across arbitrary tile regions, ensuring high generative quality and natural integration with surrounding content.

Key takeaway

For computer vision engineers developing large-image editing applications, SeamEdit offers a robust solution to integrate powerful black-box VLMs without incurring common tiling artifacts. You can achieve high generative quality and seamless content integration by adopting its five-stage, training-free pipeline. This approach directly mitigates semantic deformation, alignment drift, and visible seams, allowing you to use closed-source models effectively for complex semantic modifications.

Key insights

SeamEdit enables high-quality, seamless semantic editing of large images using black-box VLMs, overcoming common tiling artifacts.

Principles

Large image editing requires generative quality and natural integration.
Black-box VLMs can be leveraged for complex image tasks.
Tiled editing introduces specific challenges like seams and deformation.

Method

SeamEdit employs a five-stage post-hoc pipeline: overlay-based tile decomposition, VLM inpainting, geometric/color correction, multi-candidate ranking, and dynamic-programming curved seam fusion.

In practice

Apply SeamEdit to edit large images with closed-source VLMs.
Use dynamic programming for curved seam fusion.
Correct geometric and color inconsistencies post-inpainting.

Topics

Semantic Image Editing
Vision-Language Models
Black-Box Models
Image Inpainting
Seam Fusion
Large Image Processing

Best for: Research Scientist, AI Scientist, Computer Vision Engineer

Related on AIssential

Open in AIssential →

Editorial summary, takeaway, and curation by AIssential. Original article published by Computer Vision and Pattern Recognition.