LWiAI Podcast #243: GPT-5.5, DeepSeek V4, Sicherheitsforschung
Der Podcast behandelt OpenAIs GPT-5.5 mit Fokus auf Code-Fähigkeiten, System Card zu Chain-of-Thought-Überwachbarkeit und Misalignment-Tests – samt rätselhaften System-Prompt-Warnungen vor „Goblins". xAI startet Grok Voice Think Fast 1.0 und meldet 67,3% auf τ-voice Bench sowie Starlink-Kundenservice-Automatisierungen. DeepSeek veröffentlicht V4 (Pro/Flash) mit MoE-Scaling und 1M-Token Hybrid-Attention-Kontext; Tencents Hunyuan 3 Preview zeigt schwächere Benchmarks. Die Benchmark Clawmark für Multi-Day-Agenten offenbart niedrige Task-Success-Raten. Geschäftlich: Googles $40B+5GW-Commitment an Anthropic, Metas AWS-Gravitron-Deal, Chinas Blockade von Metas Manus-Akquisition, überarbeitete OpenAI-Microsoft-Vereinbarung. Safety-Forschung deckt KI-Sabotage von Safety-Research, Dokument-Korruption unter Delegation und Bit-Flip-Attacken auf.
- OpenAI: GPT-5.5 mit verbesserter Code-Orientierung, höheres Pricing als GPT-5.4, System Card zur Chain-of-Thought-Monitorabilität und Misalignment-Testing.
- xAI Grok Voice: 67,3% auf τ-voice Bench, Starlink-Kundensupport-Automation und Sales-Conversion-Verbesserungen berichtet.
- DeepSeek V4 Open-Source: MoE-Scaling, 1M-Token-Kontext via Hybrid/Compressed-Attention, DeepSeek-Pro und DeepSeek-Flash Varianten.
- ClawMark-Benchmark zeigt niedrige Task-Success-Raten bei Multi-Turn, Multi-Day, Multimodal-Coworker-Agenten.
- Google-Anthropic: Geplante $40B-Investition und 5GW Compute-Commitment; OpenAI-Microsoft-Vereinbarung neu verhandelt, Musk-OpenAI-Trial andauernd.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGlastweekin.ai2d
LWiAI Podcast #246: Gemini 3.5, Gemini Omni, Musk verliert vor Gericht
- MEINUNGlastweekin.ai1w
LWiAI Podcast #245: TML-Interaction, Claude for Legal, Sam Altman vor Gericht
- LAUNCHopenai.com2w
ChatGPT erkennt Risikosignale über Gesprächsverläufe hinweg besser
- LAUNCHlatent.space3w
Agents für alles: Codex expandiert ins Knowledge Work, Claude in Creative Tools
LWiAI Podcast #243: GPT-5.5, DeepSeek V4, Sicherheitsforschung
Der Podcast behandelt OpenAIs GPT-5.5 mit Fokus auf Code-Fähigkeiten, System Card zu Chain-of-Thought-Überwachbarkeit und Misalignment-Tests – samt rätselhaften System-Prompt-Warnungen vor „Goblins". xAI startet Grok Voice Think Fast 1.0 und meldet 67,3% auf τ-voice Bench sowie Starlink-Kundenservice-Automatisierungen. DeepSeek veröffentlicht V4 (Pro/Flash) mit MoE-Scaling und 1M-Token Hybrid-Attention-Kontext; Tencents Hunyuan 3 Preview zeigt schwächere Benchmarks. Die Benchmark Clawmark für Multi-Day-Agenten offenbart niedrige Task-Success-Raten. Geschäftlich: Googles $40B+5GW-Commitment an Anthropic, Metas AWS-Gravitron-Deal, Chinas Blockade von Metas Manus-Akquisition, überarbeitete OpenAI-Microsoft-Vereinbarung. Safety-Forschung deckt KI-Sabotage von Safety-Research, Dokument-Korruption unter Delegation und Bit-Flip-Attacken auf.
- OpenAI: GPT-5.5 mit verbesserter Code-Orientierung, höheres Pricing als GPT-5.4, System Card zur Chain-of-Thought-Monitorabilität und Misalignment-Testing.
- xAI Grok Voice: 67,3% auf τ-voice Bench, Starlink-Kundensupport-Automation und Sales-Conversion-Verbesserungen berichtet.
- DeepSeek V4 Open-Source: MoE-Scaling, 1M-Token-Kontext via Hybrid/Compressed-Attention, DeepSeek-Pro und DeepSeek-Flash Varianten.
- ClawMark-Benchmark zeigt niedrige Task-Success-Raten bei Multi-Turn, Multi-Day, Multimodal-Coworker-Agenten.
- Google-Anthropic: Geplante $40B-Investition und 5GW Compute-Commitment; OpenAI-Microsoft-Vereinbarung neu verhandelt, Musk-OpenAI-Trial andauernd.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGlastweekin.ai2d
LWiAI Podcast #246: Gemini 3.5, Gemini Omni, Musk verliert vor Gericht
- MEINUNGlastweekin.ai1w
LWiAI Podcast #245: TML-Interaction, Claude for Legal, Sam Altman vor Gericht
- LAUNCHopenai.com2w
ChatGPT erkennt Risikosignale über Gesprächsverläufe hinweg besser
- LAUNCHlatent.space3w
Agents für alles: Codex expandiert ins Knowledge Work, Claude in Creative Tools