Gemini 3.1 Flash-Lite und native Video-Embeddings
Google DeepMind hat diese Woche zwei bemerkenswerte Faehigkeiten gezeigt: Echtzeit-Website-Generierung und direkte Video-Einbettung in Vektorraeume.
Gemini 3.1 Flash-Lite: Websites in Echtzeit
In einer Demo generiert Flash-Lite komplette Websites nahezu in Echtzeit. Das Modell ist schnell und guenstig -- die Frage bleibt, wie nuetzlich die Ergebnisse fuer Produktionscode sind.
Gemini Embedding 2: Video direkt in Vektoren
Die wichtigere Neuerung: Gemini Embedding 2 kann rohes Video direkt in einen 768-dimensionalen Vektorraum projizieren -- zusammen mit Text. Keine Transkription, kein Frame-Captioning, kein Zwischenschritt ueber Text.
Praktisches Beispiel
Ein Entwickler hat damit ein CLI gebaut, das Stunden von Videomaterial in ChromaDB indexiert und per Natural Language durchsucht:
- Query: "green car cutting me off"
- Ergebnis: Der passende 30-Sekunden-Clip wird gefunden und zugeschnitten
- Kosten: ca. 2,50 USD pro Stunde Videomaterial
- Still-Frame-Erkennung ueberspringt inaktive Abschnitte (ideal fuer Ueberwachungskameras)
Warum das relevant ist
Bisher erforderte Video-Suche immer einen Umweg ueber Transkription oder Frame-Captioning. Die direkte Einbettung ermoeglicht semantische Suche auf visueller Ebene -- ein fundamental neuer Ansatz.
Quellen
- Gemini 3.1 Flash-Lite generates websites almost in real time | The Decoder
- Show HN: Gemini can now natively embed video | Hacker News