阿裡通義千問開源 Qwen-Image：20B 參數圖像生成模型，聚焦複雜文本渲染與精确編輯_企業新聞稿

阿裡通義千問開源 Qwen-Image：20B 參數圖像生成模型，聚焦複雜文本渲染與精确編輯

2025-08-05 09:51

　　8 月 5 日消息，阿裡通義千問團隊今日正式宣布開源 Qwen-Image。這是一款基于 20B 參數的 MMDiT 模型，同時也是通義千問系列中首個圖像生成基礎模型。該模型在複雜文本渲染和精确圖像編輯領域取得了顯著突破，為圖像生成與編輯領域注入了新的活力。

　　Qwen-Image 的核心特性

　　Qwen-Image 憑借多項突出特性，展現出強大的性能：

　　卓越的文本渲染能力：該模型在複雜文本渲染方面表現搶眼，能夠支持多行布局、段落級文本生成以及細粒度細節呈現。無論是英語還是中文文本，都能實現高保真輸出，精準還原文字的形态與排版。

　　穩定的圖像編輯一緻性：通過增強的多任務訓練範式，Qwen-Image 在圖像編輯過程中能有效保持編輯的一緻性，确保編輯前後的圖像在風格、元素關聯等方面連貫統一。

　　領先的跨基準性能：在多個公開基準測試中，Qwen-Image 的表現均達到行業領先水平(SOTA)。通義千問團隊對其進行了全面評估，涵蓋通用圖像生成領域的 GenEval、DPG 和 OneIG-Bench，以及圖像編輯領域的 GEdit、ImgEdit 和 GSO。尤其在文本渲染相關的 LongText-Bench、ChineseWord 和 TextCraft 基準測試中，該模型表現尤為出色，在中文文本渲染方面大幅領先現有最先進模型。

　　功能示例展示

　　多個示例，直觀呈現 Qwen-Image 的能力：

　　場景化圖像生成：根據 “宮崎駿的動漫風格。平視角拍攝，陽光下的古街熱鬧非凡……” 等詳細描述，能生成符合風格與場景設定的生動圖像，其中包含 “阿裡雲” 卡片、“雲存儲”“雲計算”“雲模型” 等元素，細節豐富且貼合文本。

　　中式文本與場景生成：可生成典雅莊重的中式廳堂場景，其中懸挂着指定對聯 “義本生知人機同道善思新”“通雲賦智乾坤啟數高志遠”，橫批 “智啟通義”，字體飄逸，搭配青花瓷、嶽陽樓畫作等元素，盡顯古典韻味。

　　含特定文本的人物圖像：能生成穿着 “QWEN” 标志 T 恤的中國美女形象，其身後玻璃闆上的手寫體文本 “Meet Qwen-Image -- a powerful image foundation model capable of complex text rendering and precise image editing. 歡迎了解 Qwen-Image, 一款強大的圖像基礎模型，擅長複雜文本渲染與精準圖像編輯” 清晰可辨，人物姿态與文本呈現自然融合。

　　廣泛的應用能力

　　除了在文本處理方面的優勢，Qwen-Image 在通用圖像生成和圖像編輯領域也具備廣泛的應用能力：

　　多風格圖像生成：支持從照片級寫實場景到印象派繪畫，從動漫風格到極簡設計等多種藝術風格，能夠靈活響應各類創意提示，滿足不同的創作需求。

　　多樣化圖像編輯：提供風格遷移、增删改、細節增強、文字編輯、人物姿态調整等多種編輯操作，讓普通用戶無需專業技能，也能實現專業級的圖像編輯效果。

　　Qwen-Image 的開源，不僅豐富了通義千問系列的模型生态，也為開發者和用戶在圖像生成與編輯領域提供了更強大的工具，有望推動相關技術的進一步發展與應用落地。

消息來源: 朝聞通新聞稿發布平臺