wird geladen

Simon Willison fasst sechs Monate LLM-Entwicklung in fünf Minuten zusammen · Lumeric

Beitrag

MEINUNG

simonwillison.net· Simon Willison's Weblog1mo

Simon Willison fasst sechs Monate LLM-Entwicklung in fünf Minuten zusammen

ToolsClaude Claude Code GPT Gemini Qwen

CompaniesOpenAI Anthropic

Warum es zählt

Der Talk zeigt, dass Coding-Agents im November 2025 eine Qualitätsschwelle überschritten haben und als Daily-Driver einsetzbar wurden. Open-Weight-Modelle wie Qwen3.6-35B-A3B laufen inzwischen auf Consumer-Laptops und erreichen vergleichbare Qualität zu top proprietären Modellen.

— Lumeric Redaktion

Simon Willison hielt auf der PyCon US 2026 einen fünfminütigen Lightning Talk, in dem er die LLM-Entwicklungen der letzten sechs Monate rekapituliert. Als Ausgangspunkt wählt er den „November 2025 Inflection Point": Im November wechselte der inoffiziell „beste" Modell-Titel fünfmal zwischen Claude Sonnet 4.5, GPT-5.1, Gemini 3, GPT-5.1 Codex Max und schließlich Claude Opus 4.5. Noch bedeutsamer war laut Willison, dass Coding-Agents in diesem Monat eine entscheidende Qualitätsschwelle überschritten – dank intensivem Reinforcement Learning from Verifiable Rewards bei OpenAI und Anthropic. Parallel dazu entstand das Projekt „Warelay" (später umbenannt zu OpenClaw), ein „Personal AI Assistant", der zum Oberbegriff „Claws" für eine ganze Gerätekategorie führte und Mac-Mini-Verkäufe in Silicon Valley antrieb. Im April erschienen Googles Gemma-4-Serie, der chinesische Open-Weight-Riese GLM-5.1 (1,5 TB), sowie Qwen3.6-35B-A3B – ein 20,9-GB-Modell, das auf Willisons Laptop läuft und laut ihm besser abschneidet als Claude Opus 4.7 beim eigenwilligen „Pelican on a Bicycle"-Test, den er als Vergleichsmaßstab durch alle Generationen verwendet.

Quelle lesensimonwillison.net

Foundation Modelle Open Source Agents

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

MEINUNG

simonwillison.net· Simon Willison's Weblog1mo

Simon Willison fasst sechs Monate LLM-Entwicklung in fünf Minuten zusammen

ToolsClaude Claude Code GPT Gemini Qwen

CompaniesOpenAI Anthropic

Warum es zählt

Der Talk zeigt, dass Coding-Agents im November 2025 eine Qualitätsschwelle überschritten haben und als Daily-Driver einsetzbar wurden. Open-Weight-Modelle wie Qwen3.6-35B-A3B laufen inzwischen auf Consumer-Laptops und erreichen vergleichbare Qualität zu top proprietären Modellen.

— Lumeric Redaktion

Simon Willison hielt auf der PyCon US 2026 einen fünfminütigen Lightning Talk, in dem er die LLM-Entwicklungen der letzten sechs Monate rekapituliert. Als Ausgangspunkt wählt er den „November 2025 Inflection Point": Im November wechselte der inoffiziell „beste" Modell-Titel fünfmal zwischen Claude Sonnet 4.5, GPT-5.1, Gemini 3, GPT-5.1 Codex Max und schließlich Claude Opus 4.5. Noch bedeutsamer war laut Willison, dass Coding-Agents in diesem Monat eine entscheidende Qualitätsschwelle überschritten – dank intensivem Reinforcement Learning from Verifiable Rewards bei OpenAI und Anthropic. Parallel dazu entstand das Projekt „Warelay" (später umbenannt zu OpenClaw), ein „Personal AI Assistant", der zum Oberbegriff „Claws" für eine ganze Gerätekategorie führte und Mac-Mini-Verkäufe in Silicon Valley antrieb. Im April erschienen Googles Gemma-4-Serie, der chinesische Open-Weight-Riese GLM-5.1 (1,5 TB), sowie Qwen3.6-35B-A3B – ein 20,9-GB-Modell, das auf Willisons Laptop läuft und laut ihm besser abschneidet als Claude Opus 4.7 beim eigenwilligen „Pelican on a Bicycle"-Test, den er als Vergleichsmaßstab durch alle Generationen verwendet.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge