Modelle

Strömungen — Forschung & Trends -- gut davon gehört zu haben

Strömungen11. April 2026

Overworld Waypoint-1.5: Generative 3D-Welten auf Konsumenten-Hardware

Overworlds neues Waypoint-1.5-Modell generiert interaktive 3D-Welten direkt auf Mac und Windows ohne dedizierte GPU-Cluster. Damit verschiebt sich die Schwelle für World Models von Cloud-Rechenzentren auf Entwickler-Notebooks -- mit Folgen für Game Development, Simulation und Robotik-Training.

Strömungen10. April 2026

Alibabas Happy Horse dominiert Video-Benchmarks

Das unter Pseudonym veroeffentlichte Videomodell Happy Horse 1.0 hat aus dem Stand die Spitze der Text-to-Video- und Image-to-Video-Benchmarks uebernommen. Laut The Information steckt Alibabas Cloud-Sparte dahinter -- vermutlich die naechste Generation der offenen Wan-Familie aus dem Tongyi Lab.

Strömungen10. April 2026

Google Gemini generiert interaktive 3D-Modelle und Simulationen

Gemini antwortet auf komplexe Fragen nicht mehr nur mit Text, sondern mit live manipulierbaren 3D-Modellen, Diagrammen und Simulationen direkt im Chat. Verfuegbar im Pro-Tier ueber gemini.google, ausgeloest durch Phrasen wie 'show me' oder 'help me visualize'.

Strömungen8. April 2026

GLM-5.1 -- Z.AIs 754B-Modell laeuft autonom acht Stunden

Z.AI veroeffentlicht GLM-5.1 als Open-Weight-Modell mit 754 Milliarden Parametern. Es erreicht SOTA auf SWE-Bench Pro und kann acht Stunden autonom arbeiten.

Strömungen8. April 2026

Muse Spark -- Metas erstes Modell aus den Superintelligence Labs

Meta veroeffentlicht Muse Spark, ein nativ multimodales Reasoning-Modell -- das erste Produkt der neuen Superintelligence Labs unter Alexandr Wang. Es ist kompetitiv, aber kein neues State-of-the-Art.

Strömungen7. April 2026

Gemma 4: Zwei Millionen Downloads und die Local-First-Welle

Googles Gemma 4 erreicht in einer Woche zwei Millionen Downloads. Das Modell läuft auf Consumer-Hardware und befeuert die Diskussion über lokale Alternativen zu Cloud-Abonnements.

Strömungen7. April 2026

Drei Open-Source-Signale -- Harrier, Meta und GLM-5.1

Microsoft open-sourced das Embedding-Modell Harrier unter MIT-Lizenz, Meta kuendigt eine hybride Open-Source-Strategie an, und Zhipus GLM-5.1 erreicht 94% von Claude Opus 4.6 bei Coding-Tasks -- alles innerhalb einer Woche.

Strömungen6. April 2026

Qwen-3.6-Plus: Erstes Modell mit einer Billion Tokens pro Tag

Qwen-3.6-Plus verarbeitet laut OpenRouter als erstes Modell ueber eine Billion Tokens taeglich. Das ist ein Indikator fuer die rasant steigende Nutzung chinesischer Open-Source-Modelle.

Strömungen3. April 2026

Arcee Trinity Large Thinking -- Open-Source Reasoning unter Apache 2.0

Arcee AI veroeffentlicht mit Trinity Large Thinking ein 398B-MoE-Reasoning-Modell unter Apache 2.0, das auf agentische Workflows und Tool-Nutzung spezialisiert ist.

Strömungen3. April 2026

Zhipu GLM-5V-Turbo -- Design-Mockups direkt in Frontend-Code

Zhipu AIs multimodales Coding-Modell wandelt Design-Mockups in ausfuehrbaren Frontend-Code um und integriert Wahrnehmung, Planung und Ausfuehrung fuer Agent-Workflows.

Strömungen2. April 2026

Gemma 4: Googles leistungsfaehigste offene Modellfamilie jetzt unter Apache 2.0

Google DeepMind veroeffentlicht Gemma 4 mit vier Modellen unter Apache 2.0 -- erstmals ohne proprietaere Lizenz. Von 2B bis 31B, alle vision-faehig und fuer lokale Ausfuehrung optimiert.

Strömungen2. April 2026

GPT-5.4 -- Tool Search und die drei Varianten

OpenAIs GPT-5.4 bringt mit Tool Search eine neue Architektur fuer dynamisches Tool-Calling, drei Modellvarianten und ein 1M-Token-Kontextfenster. Ein Deep Dive in die technischen Details und was das fuer Agent-Entwickler bedeutet.

Strömungen2. April 2026

IBM Granite 4.0 3B Vision: Spezialisiertes VLM fuer Dokumentenextraktion

IBM veroeffentlicht Granite 4.0 3B Vision -- ein kompaktes Vision-Language-Model, das auf Enterprise-Dokumentenextraktion spezialisiert ist und den Trend zu kleinen, zweckgebundenen VLMs unterstreicht.

Strömungen2. April 2026

LTX 2.3: Open-Source Video-Generierung in 4K mit synchronisiertem Audio

Lightricks veroeffentlicht LTX 2.3 -- ein 22-Milliarden-Parameter-Modell, das natives 4K-Video bei 50 FPS mit synchronisiertem Audio in einem einzigen Durchlauf erzeugt. Open Weights, kommerziell nutzbar.

Strömungen2. April 2026

Microsoft MAI: Eigene Foundational Models fuer Speech, Audio und Bild

Microsofts erst sechs Monate alte MAI-Gruppe veroeffentlicht drei eigene Foundational Models -- darunter MAI-Transcribe-1 mit 2.5-facher Geschwindigkeit zum Vorgaenger fuer 0.36 Dollar pro Audio-Stunde.

Strömungen2. April 2026

Mistral Small 4: Ein Modell ersetzt drei -- Reasoning, Multimodal und Coding vereint

Mistral AI veroeffentlicht Mistral Small 4 unter Apache 2.0 -- ein 119B-Parameter MoE-Modell mit nur 6B aktiven Parametern, das erstmals Instruct, Reasoning und Coding in einer einzigen Architektur vereint.

Strömungen2. April 2026

NVIDIA Nemotron 3 Super: Hybrid-Architektur fuer agentic AI

NVIDIA stellt auf der GTC 2026 Nemotron 3 Super vor -- ein 120B-Open-Weight-Modell mit Mamba-Transformer-Hybrid und nur 12B aktiven Parametern, das den SWE-bench-Rekord unter Open-Weight-Modellen haelt.

Strömungen2. April 2026

Qwen3.6-Plus: Alibabas drittes Modell in wenigen Tagen zielt auf Agenten

Alibaba veroeffentlicht Qwen3.6-Plus als drittes proprietaeres Modell innerhalb weniger Tage -- explizit fuer agentic workflows optimiert.

Strömungen1. April 2026

Lokale KI beschleunigt: Ollama MLX, 1-Bit Bonsai und Solo-Projekte mit AI

Ollama bekommt MLX-Support fuer Apple Silicon, PrismML zeigt kommerzielle 1-Bit-LLMs, AMD startet Lemonade als lokalen LLM-Server, und ein Entwickler baut solo mit Claude Code eine Postgres-Extension die ParadeDB schlaegt.

Strömungen1. April 2026

Qwen3.5-Omni: Alibabas Multimodell lernt Code-Schreiben aus Sprache und Video

Alibabas Qwen3.5-Omni verarbeitet Text, Bild, Audio und Video -- und hat eine emergente Faehigkeit entwickelt: Code aus gesprochenen Anweisungen und Video schreiben, ohne dafuer trainiert worden zu sein.

Strömungen27. März 2026

Claude Mythos -- vom Leak zum offiziellen Cybersecurity-Einsatz

Was Ende März als Leak begann, ist seit dem 7. April 2026 offiziell: Anthropic stellt Claude Mythos Preview im Rahmen von Project Glasswing vor -- einer Cybersecurity-Initiative mit 12 Gründungspartnern, darunter Apple, Microsoft und Google. Das Modell hat Tausende Zero-Day-Schwachstellen in allen großen Betriebssystemen und Browsern gefunden.

Strömungen26. März 2026

Gemini 3.1 Flash Live: Googles natürlichstes Voice-Modell

Google stellt Gemini 3.1 Flash Live vor -- ein Audio-Modell für Echtzeit-Konversation mit verbessertem Sprachrhythmus, das in Benchmarks wie ComplexFuncBench Audio und Big Bench Audio vorn liegt.

Strömungen24. März 2026

Gemini 3.1 Flash-Lite und native Video-Embeddings

Google zeigt Echtzeit-Website-Generierung mit Flash-Lite und ermoeglicht erstmals native Video-Embeddings ohne Transkription

Strömungen24. März 2026

Modell-Releases Q1 2026

Überblick über die wichtigsten Modell-Releases im ersten Quartal 2026

Strömungen24. März 2026

On-Device AI -- iPhone 17 Pro laeuft 400B-Modell

Demo zeigt 400-Milliarden-Parameter-Modell auf dem iPhone 17 Pro, Apple verbessert Context-Window-Management in iOS 26.4

Strömungen

Chinas KI-Offensive im Q1 2026 -- DeepSeek V4 und MiMo-V2-Pro