Modelle
Strömungen — Forschung & Trends -- gut davon gehört zu haben
Overworld Waypoint-1.5: Generative 3D-Welten auf Konsumenten-Hardware
Overworlds neues Waypoint-1.5-Modell generiert interaktive 3D-Welten direkt auf Mac und Windows ohne dedizierte GPU-Cluster. Damit verschiebt sich die Schwelle für World Models von Cloud-Rechenzentren auf Entwickler-Notebooks -- mit Folgen für Game Development, Simulation und Robotik-Training.
Alibabas Happy Horse dominiert Video-Benchmarks
Das unter Pseudonym veroeffentlichte Videomodell Happy Horse 1.0 hat aus dem Stand die Spitze der Text-to-Video- und Image-to-Video-Benchmarks uebernommen. Laut The Information steckt Alibabas Cloud-Sparte dahinter -- vermutlich die naechste Generation der offenen Wan-Familie aus dem Tongyi Lab.
Google Gemini generiert interaktive 3D-Modelle und Simulationen
Gemini antwortet auf komplexe Fragen nicht mehr nur mit Text, sondern mit live manipulierbaren 3D-Modellen, Diagrammen und Simulationen direkt im Chat. Verfuegbar im Pro-Tier ueber gemini.google, ausgeloest durch Phrasen wie 'show me' oder 'help me visualize'.
GLM-5.1 -- Z.AIs 754B-Modell laeuft autonom acht Stunden
Z.AI veroeffentlicht GLM-5.1 als Open-Weight-Modell mit 754 Milliarden Parametern. Es erreicht SOTA auf SWE-Bench Pro und kann acht Stunden autonom arbeiten.
Muse Spark -- Metas erstes Modell aus den Superintelligence Labs
Meta veroeffentlicht Muse Spark, ein nativ multimodales Reasoning-Modell -- das erste Produkt der neuen Superintelligence Labs unter Alexandr Wang. Es ist kompetitiv, aber kein neues State-of-the-Art.
Gemma 4: Zwei Millionen Downloads und die Local-First-Welle
Googles Gemma 4 erreicht in einer Woche zwei Millionen Downloads. Das Modell läuft auf Consumer-Hardware und befeuert die Diskussion über lokale Alternativen zu Cloud-Abonnements.
Drei Open-Source-Signale -- Harrier, Meta und GLM-5.1
Microsoft open-sourced das Embedding-Modell Harrier unter MIT-Lizenz, Meta kuendigt eine hybride Open-Source-Strategie an, und Zhipus GLM-5.1 erreicht 94% von Claude Opus 4.6 bei Coding-Tasks -- alles innerhalb einer Woche.
Qwen-3.6-Plus: Erstes Modell mit einer Billion Tokens pro Tag
Qwen-3.6-Plus verarbeitet laut OpenRouter als erstes Modell ueber eine Billion Tokens taeglich. Das ist ein Indikator fuer die rasant steigende Nutzung chinesischer Open-Source-Modelle.
Arcee Trinity Large Thinking -- Open-Source Reasoning unter Apache 2.0
Arcee AI veroeffentlicht mit Trinity Large Thinking ein 398B-MoE-Reasoning-Modell unter Apache 2.0, das auf agentische Workflows und Tool-Nutzung spezialisiert ist.
Zhipu GLM-5V-Turbo -- Design-Mockups direkt in Frontend-Code
Zhipu AIs multimodales Coding-Modell wandelt Design-Mockups in ausfuehrbaren Frontend-Code um und integriert Wahrnehmung, Planung und Ausfuehrung fuer Agent-Workflows.
Gemma 4: Googles leistungsfaehigste offene Modellfamilie jetzt unter Apache 2.0
Google DeepMind veroeffentlicht Gemma 4 mit vier Modellen unter Apache 2.0 -- erstmals ohne proprietaere Lizenz. Von 2B bis 31B, alle vision-faehig und fuer lokale Ausfuehrung optimiert.
GPT-5.4 -- Tool Search und die drei Varianten
OpenAIs GPT-5.4 bringt mit Tool Search eine neue Architektur fuer dynamisches Tool-Calling, drei Modellvarianten und ein 1M-Token-Kontextfenster. Ein Deep Dive in die technischen Details und was das fuer Agent-Entwickler bedeutet.
IBM Granite 4.0 3B Vision: Spezialisiertes VLM fuer Dokumentenextraktion
IBM veroeffentlicht Granite 4.0 3B Vision -- ein kompaktes Vision-Language-Model, das auf Enterprise-Dokumentenextraktion spezialisiert ist und den Trend zu kleinen, zweckgebundenen VLMs unterstreicht.
LTX 2.3: Open-Source Video-Generierung in 4K mit synchronisiertem Audio
Lightricks veroeffentlicht LTX 2.3 -- ein 22-Milliarden-Parameter-Modell, das natives 4K-Video bei 50 FPS mit synchronisiertem Audio in einem einzigen Durchlauf erzeugt. Open Weights, kommerziell nutzbar.
Microsoft MAI: Eigene Foundational Models fuer Speech, Audio und Bild
Microsofts erst sechs Monate alte MAI-Gruppe veroeffentlicht drei eigene Foundational Models -- darunter MAI-Transcribe-1 mit 2.5-facher Geschwindigkeit zum Vorgaenger fuer 0.36 Dollar pro Audio-Stunde.
Mistral Small 4: Ein Modell ersetzt drei -- Reasoning, Multimodal und Coding vereint
Mistral AI veroeffentlicht Mistral Small 4 unter Apache 2.0 -- ein 119B-Parameter MoE-Modell mit nur 6B aktiven Parametern, das erstmals Instruct, Reasoning und Coding in einer einzigen Architektur vereint.
NVIDIA Nemotron 3 Super: Hybrid-Architektur fuer agentic AI
NVIDIA stellt auf der GTC 2026 Nemotron 3 Super vor -- ein 120B-Open-Weight-Modell mit Mamba-Transformer-Hybrid und nur 12B aktiven Parametern, das den SWE-bench-Rekord unter Open-Weight-Modellen haelt.
Qwen3.6-Plus: Alibabas drittes Modell in wenigen Tagen zielt auf Agenten
Alibaba veroeffentlicht Qwen3.6-Plus als drittes proprietaeres Modell innerhalb weniger Tage -- explizit fuer agentic workflows optimiert.
Lokale KI beschleunigt: Ollama MLX, 1-Bit Bonsai und Solo-Projekte mit AI
Ollama bekommt MLX-Support fuer Apple Silicon, PrismML zeigt kommerzielle 1-Bit-LLMs, AMD startet Lemonade als lokalen LLM-Server, und ein Entwickler baut solo mit Claude Code eine Postgres-Extension die ParadeDB schlaegt.
Qwen3.5-Omni: Alibabas Multimodell lernt Code-Schreiben aus Sprache und Video
Alibabas Qwen3.5-Omni verarbeitet Text, Bild, Audio und Video -- und hat eine emergente Faehigkeit entwickelt: Code aus gesprochenen Anweisungen und Video schreiben, ohne dafuer trainiert worden zu sein.
Claude Mythos -- vom Leak zum offiziellen Cybersecurity-Einsatz
Was Ende März als Leak begann, ist seit dem 7. April 2026 offiziell: Anthropic stellt Claude Mythos Preview im Rahmen von Project Glasswing vor -- einer Cybersecurity-Initiative mit 12 Gründungspartnern, darunter Apple, Microsoft und Google. Das Modell hat Tausende Zero-Day-Schwachstellen in allen großen Betriebssystemen und Browsern gefunden.
Gemini 3.1 Flash Live: Googles natürlichstes Voice-Modell
Google stellt Gemini 3.1 Flash Live vor -- ein Audio-Modell für Echtzeit-Konversation mit verbessertem Sprachrhythmus, das in Benchmarks wie ComplexFuncBench Audio und Big Bench Audio vorn liegt.
Gemini 3.1 Flash-Lite und native Video-Embeddings
Google zeigt Echtzeit-Website-Generierung mit Flash-Lite und ermoeglicht erstmals native Video-Embeddings ohne Transkription
Modell-Releases Q1 2026
Überblick über die wichtigsten Modell-Releases im ersten Quartal 2026
On-Device AI -- iPhone 17 Pro laeuft 400B-Modell
Demo zeigt 400-Milliarden-Parameter-Modell auf dem iPhone 17 Pro, Apple verbessert Context-Window-Management in iOS 26.4