8 月 5 日消息,阿裡通義千問團隊今日正式宣布開源 Qwen-Image。這是一款基于 20B 參數的 MMDiT 模型,同時也是通義千問系列中首個圖像生成基礎模型。該模型在複雜文本渲染和精确圖像編輯領域取得了顯著突破,為圖像生成與編輯領域注入了新的活力。
Qwen-Image 的核心特性
Qwen-Image 憑借多項突出特性,展現出強大的性能:
卓越的文本渲染能力:該模型在複雜文本渲染方面表現搶眼,能夠支持多行布局、段落級文本生成以及細粒度細節呈現。無論是英語還是中文文本,都能實現高保真輸出,精準還原文字的形态與排版。
穩定的圖像編輯一緻性:通過增強的多任務訓練範式,Qwen-Image 在圖像編輯過程中能有效保持編輯的一緻性,确保編輯前後的圖像在風格、元素關聯等方面連貫統一。
領先的跨基準性能:在多個公開基準測試中,Qwen-Image 的表現均達到行業領先水平(SOTA)。通義千問團隊對其進行了全面評估,涵蓋通用圖像生成領域的 GenEval、DPG 和 OneIG-Bench,以及圖像編輯領域的 GEdit、ImgEdit 和 GSO。尤其在文本渲染相關的 LongText-Bench、ChineseWord 和 TextCraft 基準測試中,該模型表現尤為出色,在中文文本渲染方面大幅領先現有最先進模型。
功能示例展示
多個示例,直觀呈現 Qwen-Image 的能力:
場景化圖像生成:根據 “宮崎駿的動漫風格。平視角拍攝,陽光下的古街熱鬧非凡……” 等詳細描述,能生成符合風格與場景設定的生動圖像,其中包含 “阿裡雲” 卡片、“雲存儲”“雲計算”“雲模型” 等元素,細節豐富且貼合文本。
中式文本與場景生成:可生成典雅莊重的中式廳堂場景,其中懸挂着指定對聯 “義本生知人機同道善思新”“通雲賦智乾坤啟數高志遠”,橫批 “智啟通義”,字體飄逸,搭配青花瓷、嶽陽樓畫作等元素,盡顯古典韻味。
含特定文本的人物圖像:能生成穿着 “QWEN” 标志 T 恤的中國美女形象,其身後玻璃闆上的手寫體文本 “Meet Qwen-Image -- a powerful image foundation model capable of complex text rendering and precise image editing. 歡迎了解 Qwen-Image, 一款強大的圖像基礎模型,擅長複雜文本渲染與精準圖像編輯” 清晰可辨,人物姿态與文本呈現自然融合。
廣泛的應用能力
除了在文本處理方面的優勢,Qwen-Image 在通用圖像生成和圖像編輯領域也具備廣泛的應用能力:
多風格圖像生成:支持從照片級寫實場景到印象派繪畫,從動漫風格到極簡設計等多種藝術風格,能夠靈活響應各類創意提示,滿足不同的創作需求。
多樣化圖像編輯:提供風格遷移、增删改、細節增強、文字編輯、人物姿态調整等多種編輯操作,讓普通用戶無需專業技能,也能實現專業級的圖像編輯效果。
Qwen-Image 的開源,不僅豐富了通義千問系列的模型生态,也為開發者和用戶在圖像生成與編輯領域提供了更強大的工具,有望推動相關技術的進一步發展與應用落地。