Qwen veröffentlicht Q-Judger: VLM zur automatisierten Bildqualitätsbewertung
Q-Judger ist ein von Qwen feingetuntes Vision-Language-Modell (VLM), das speziell für die automatisierte Evaluation von Text-to-Image-Modellen entwickelt wurde. Als Eingabe erhält es einen Textprompt sowie ein generiertes Bild; als Ausgabe liefert es strukturierte JSON-Scores mit Werten auf einer dreistufigen Skala (0 = Fail, 1 = Pass, 2 = Excel, N/A). Das Basismodell ist Qwen3.6-27B. Die Bewertung erfolgt über fünf übergeordnete Dimensionen: Qualität (Realismus, Detail, Auflösung), Ästhetik (Komposition, Farbharmonie, Beleuchtung, anatomische Treue), Alignment (Attribute, Aktionen, Layout, Relationen, Szene), Real-World-Fidelity (Fairness, Sicherheit, Weltwissen) sowie kreative Generierung (Imagination, Text-Rendering, Design-Anwendungen, Visual Storytelling). Thinking Mode ist aktiviert – das Modell durchläuft Chain-of-Thought-Reasoning, bevor es das finale JSON ausgibt. Das Modell und der zugehörige Benchmark wurden auf Hugging Face unter dem Qwen-Namespace veröffentlicht.
- Basismodell: Qwen3.6-27B mit aktiviertem Thinking Mode (Chain-of-Thought vor JSON-Ausgabe)
- Scores je Dimension: 0 = Fail, 1 = Pass, 2 = Excel, N/A — ausgegeben als strukturiertes JSON
- 5 Top-Level-Dimensionen: Qualität, Ästhetik, Alignment, Real-world Fidelity, Creative Generation
- Alignment-Dimension deckt u.a. Quantity, Facial Expression, 2D/3D Space und Containment-Relationen ab
- Creative-Generation-Dimension umfasst Text Rendering (inkl. Cross-lingual), Design-Anwendungen und Visual Storytelling
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org0mo
ELIQ: Label-freies Framework bewertet Qualität KI-generierter Bilder
- FORSCHUNGarxiv.org6d
BEiTScore: Referenzfreie Bildunterschriften-Evaluation mit leichtgewichtigem Cross-Encoder
- FORSCHUNGhuggingface.co2w
Qwen-Image-2.0: Alibabas unified Modell für Bildsynthese und Bildbearbeitung
- FORSCHUNGarxiv.org2w
Vision2Code: Neuer Benchmark für domänenübergreifende Bild-zu-Code-Generierung
Qwen veröffentlicht Q-Judger: VLM zur automatisierten Bildqualitätsbewertung
Q-Judger ist ein von Qwen feingetuntes Vision-Language-Modell (VLM), das speziell für die automatisierte Evaluation von Text-to-Image-Modellen entwickelt wurde. Als Eingabe erhält es einen Textprompt sowie ein generiertes Bild; als Ausgabe liefert es strukturierte JSON-Scores mit Werten auf einer dreistufigen Skala (0 = Fail, 1 = Pass, 2 = Excel, N/A). Das Basismodell ist Qwen3.6-27B. Die Bewertung erfolgt über fünf übergeordnete Dimensionen: Qualität (Realismus, Detail, Auflösung), Ästhetik (Komposition, Farbharmonie, Beleuchtung, anatomische Treue), Alignment (Attribute, Aktionen, Layout, Relationen, Szene), Real-World-Fidelity (Fairness, Sicherheit, Weltwissen) sowie kreative Generierung (Imagination, Text-Rendering, Design-Anwendungen, Visual Storytelling). Thinking Mode ist aktiviert – das Modell durchläuft Chain-of-Thought-Reasoning, bevor es das finale JSON ausgibt. Das Modell und der zugehörige Benchmark wurden auf Hugging Face unter dem Qwen-Namespace veröffentlicht.
- Basismodell: Qwen3.6-27B mit aktiviertem Thinking Mode (Chain-of-Thought vor JSON-Ausgabe)
- Scores je Dimension: 0 = Fail, 1 = Pass, 2 = Excel, N/A — ausgegeben als strukturiertes JSON
- 5 Top-Level-Dimensionen: Qualität, Ästhetik, Alignment, Real-world Fidelity, Creative Generation
- Alignment-Dimension deckt u.a. Quantity, Facial Expression, 2D/3D Space und Containment-Relationen ab
- Creative-Generation-Dimension umfasst Text Rendering (inkl. Cross-lingual), Design-Anwendungen und Visual Storytelling
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org0mo
ELIQ: Label-freies Framework bewertet Qualität KI-generierter Bilder
- FORSCHUNGarxiv.org6d
BEiTScore: Referenzfreie Bildunterschriften-Evaluation mit leichtgewichtigem Cross-Encoder
- FORSCHUNGhuggingface.co2w
Qwen-Image-2.0: Alibabas unified Modell für Bildsynthese und Bildbearbeitung
- FORSCHUNGarxiv.org2w
Vision2Code: Neuer Benchmark für domänenübergreifende Bild-zu-Code-Generierung