Topic

Multimodal

50 Beiträge der letzten 90 Tage zu Multimodal — kuratiert von der Lumeric-Redaktion mit Trust-Labels und kurzem Warum-es-zählt-Block pro Story.

Top-Tools rund um Multimodal

Modal105×Qwen56×GPT45×Gemini36×Hugging Face28×Claude15×

Top-Unternehmen in Multimodal

Google DeepMind31×Hugging Face

Top-Tools rund um Multimodal

Top-Unternehmen in Multimodal

Archiv

Beiträge · 50

Lorde kritisiert Ray-Ban Meta AI-Brille als „not sexy" bei Konzert

Moondream 3.1: Vision-Language-Modell mit 9B Params und nur 2B aktiv

Neues KI-Modell generiert Minecraft-Welten neu

Hunyuan3D-Swift: Image-to-3D-Port für Apple Silicon und iPhone

Ghost Font: Bewegungsbasierte Schrift täuscht führende KI-Modelle

Orca: Chinesisches World Model für Robotik ohne Action-Labels trainiert

Seedream 5.0 Pro für Bildgenerierung jetzt auf Vercels AI Gateway verfügbar

Meta entfernt Instagram-KI-Feature nach Nutzerprotesten

Nilay Patel: AR-Brillen erfordern zwingend Cloud-Upload und Privatsphäre-Eingriff

EPFL NEVO-Projekt: KI generiert Videos zur gezielten Aktivierung von Hirnregionen

Google kennzeichnet KI-generierte Werbeanzeigen im My Ad Center

Microsoft Aurora 1.5: Wetter-KI mit mehr Variablen und Ensemble-Prognosen

Character.AI startet c.ai Series: KI-animierte Kurzdramen für Smartphones

Character.AI startet eigene Mikrodrama-Serien mit interaktiven KI-Charakteren

Googles SynthID-Wasserzeichen entlarvt gefälschtes McConnell-Krankenhausbild

Sammelklage: Grok erzeugte 7.000 CSAM-Bilder – xAI behinderte Ermittlungen

Lokale Asset-Pipeline für Spiele: TTS, SFX und 3D-Generierung via GGML

Google Photos führt KI-Tool Video Remix auf Basis von Gemini Omni ein

General Intuition setzt auf Videospieldaten statt Internet für AGI-Training

Meta-KI-Brille bekommt Datenschutz-Feature – trotz wachsender Datensammlung

Robostral Navigate: Mistral AI zeigt Einzel-Kamera-Navigation für Roboter

Meta testet Always-on-KI-Brille mit Rundumüberwachung des Alltags

Horus Hiero: Open-Source-Modell für Hieroglyphen-Übersetzung mit 9B und 4B Varianten

Meta Superintelligence Labs launcht Muse Image mit Instagram-Integration

VisionBridge: OpenAI-kompatibler Proxy gibt Text-LLMs Bildverständnis

Solos AirGo A6: Kameralose Smart Glasses mit 19 Gramm

NVIDIA veröffentlicht Nemotron-Labs-Audex-30B: Audio-Text-LLM mit 1M-Token-Kontext

Offline-KI zur Erkennung gefälschter Medikamente in Afrika

Ant Group veröffentlicht LingBot-Vision: 4 DINO-Backbones, 0.3B ViT-L matched DINOv3-7B

Smart Glasses und Privatsphäre: Das kulturelle Problem mit Ray-Ban Meta

Photoroom erklärt Datenstrategie für PRX-Modellreihe (Teil 4)

Frame-Deduplizierung für VLMs bei langen Videos mit MiniCPM-V

Watch Skill: Lokale Video-Indexing-Pipeline für LLMs mit MCP-Support

LivePortrait-Destillat läuft mit 25 fps vollständig im Browser

Community-Umfrage: Beste lokale Vision-Sprachmodelle im Juli 2026

PANet Paper-Analyse: Bottom-Up-Pfad verbessert Feature Pyramid Networks

~2000 Tokens/s mit vLLM, NVFP4 und 30 parallelen Streams auf Blackwell-GPU

Google-Werbung zeigt Unabhängigkeitserklärung mit KI-Unterstützung

Midjourney fordert Hollywood-Studios zur Offenlegung eigener KI-Nutzung auf

Google DeepMind und A24 starten Forschungspartnerschaft für Filmkünstler

Anthropic kündigt Claude Science an und plant eigene Medikamentenentwicklung

AMD veröffentlicht Micro-World: Open-Source interaktives World-Model auf Wan2.1-Basis

Gemma 4 31B als sprechender 3D-Avatar mit Mimik und Gestik

Midjourney zeigt Behind-the-Scenes-Video seines Ultraschall-Scanners – Beweise fehlen

Community-Frage: Vision-Modelle zur Feuer- und Raucherkennung

claude-real-video: Tool für szenenbasierte Video-Analyse mit beliebigen LLMs

Lokales RPG-Modell RPG-HaloTales-V1 mit Multimedia-Erlebnis veröffentlicht

SenseNova-U1-8B-MoT-Infographic-V2: Open-Source-Modell für Infografiken

VCCB: Neuer Open-Benchmark testet Kalender-Lesefähigkeit von Multimodal-LLMs

SpaceX zeigt Investoren Prototyp eines KI-Geräts – Musk dementiert