Release Note 03.05.2026

Aktualisierung des AI-Modellportfolios

Um den PHOENIQS AI Model Service aktuell zu halten und Kunden Zugriff auf die neuesten Modellfunktionen zu ermöglichen, aktualisieren wir das Modellportfolio im Rahmen unseres regulären Lebenszyklusmanagementprozesses.

In den kommenden 20 Werktagen werden ausgewählte Modelle außer Betrieb genommen. Gleichzeitig werden neuere, empfohlene Alternativen vorgestellt, die einen umfassenderen Funktionsumfang, eine verbesserte Leistung und einen besseren Langzeitsupport bieten. Mit diesem Update soll sichergestellt werden, dass Kunden weiterhin von einem Service profitieren, der mit der sich schnell entwickelnden Modelllandschaft Schritt hält.

Im Zuge dieser Aktualisierung freuen wir uns, die Kimi K2.6 und die Gemma 4.1 vorzustellen. Weitere Modelle werden nach und nach veröffentlicht, darunter:

Qwen 3.5 35B-A3B

GLM-5 

Quest Coder V1 7B Anleitung

Voxtral 4B TTS

FLUX.2 [klein] 4B

Qwen-Image-2512

Qwen-Image-Edit-2511 

Um einen reibungslosen Übergang zu gewährleisten, wurden basierend auf Workload-Typ und Leistungsprofil empfohlene Ersatzmodelle identifiziert. Da sich das Verhalten je nach Modell unterscheiden kann, sollten Kunden vor der Migration Eingabeaufforderungen, Tool-Verhalten, Ausgabeformate, Latenz und Antwortqualität überprüfen.

Diese Portfolio-Aktualisierung spiegelt unsere kontinuierlichen Investitionen wider, um den Service auf dem neuesten Stand zu halten und den Kundenzugang zu neuen Modellfunktionen zu erweitern, sobald diese verfügbar sind.

Sollte für die Übergangsplanung ein kurzfristiger, weiterer Zugriff auf ein auslaufendes Modell erforderlich sein, können Kunden ein Ticket beim Service Desk einreichen, in dem der Anwendungsfall, die erwarteten Auswirkungen auf das Geschäft und der gewünschte Zeitrahmen beschrieben werden. Anfragen werden gemäß dem Standard-Stilllegungsprozess geprüft; eine fortlaufende Verfügbarkeit kann jedoch nicht garantiert werden. Weitere Modellzugänge werden nach ihrer Inbetriebnahme bekannt gegeben.

Empfohlener Austausch

Ausser Betrieb genommenes Modell

Empfohlener Austausch

Ersatzbasis

Quelle

apertus-8B

inference-apertus-70B 

Ein umfangreiches, universelles Anweisungsmodell, optimiert für komplexe Unternehmens-Workloads, einschließlich dialogorientierter KI, Inhaltsgenerierung, Zusammenfassung, Fragebeantwortung und mehrstufigem Schließen, mit auf die Schweiz zugeschnittener Bereitstellung und Optimierung.

Hugging Face model card 

deepseekr1-70b

inference-qwq-32b 

Qwen beschreibt QwQ-32B als sein mittelgroßes Reasoning-Modell, das für schwierigere nachgelagerte Probleme entwickelt wurde und im Vergleich zu modernsten Reasoning-Modellen, einschließlich DeepSeek-R1 und o1-mini, konkurrenzfähig ist.

Hugging Face model card 

qwq25-vl-72b 

inference-qwen3-vl-235b 

Qwen beschreibt Qwen3-VL als das bisher leistungsstärkste Bild-Sprach-Modell der Qwen-Serie mit verbessertem Textverständnis und -generierung, tiefergehendem visuellem Denken, längerem Kontext und stärkeren Interaktionsmöglichkeiten für Agenten.

Hugging Face model card 

kimi-K2 

inference-kimi-K2.6 

Moonshot AI beschreibt Kimi K2.6 als ein quelloffenes, natives multimodales Agentenmodell mit Fortschritten in den Bereichen Langzeitprogrammierung, programmiergetriebenes Design, proaktive autonome Ausführung und schwarmbasierte Aufgabenorchestrierung.

Hugging Face model card 

Lama 3.3 70B

inference-llama4-maverick  

 

(Primär)

Meta Llama 4 Maverick ist ein nativ multimodales Mixture-of-Experts-Modell, das für das Text- und Bildverstehen entwickelt wurde und sich durch starke Leistung bei mehrsprachigen Aufgaben, Codierung, Werkzeugaufruf und agentenbasierten Anwendungsfällen auszeichnet, wobei schnelle Reaktionen zu relativ geringen Kosten angestrebt werden.

Hugging Face model card 

Lama 3.3 70B

inference-llama4-scout-17b 

 

(Sekundarstufe)

Meta Llama 4 Scout ist ein nativ multimodales Modell, das für die Text- und Bildverarbeitung entwickelt wurde und mit der Effizienz einer einzelnen H100-GPU sowie einem Kontextfenster von 10 Millionen Token für lange Dokumente und Kontexte arbeitet. Laut Meta ist die Llama-4-Familie für multimodales Verständnis, mehrsprachige Aufgaben, Codierung, Tool-Aufrufe und agentenbasierte Systeme optimiert.

Hugging Face model card

deepseek-670B

inference-deepseek-V32 

DeepSeek stellt DeepSeek-V3.2 als ein Modell vor, das hohe Recheneffizienz mit starker Argumentationsfähigkeit und Agentenleistung kombiniert.

Hugging Face model card 



Was das für Sie bedeutet

Falls Sie derzeit eines der betroffenen Modelle verwenden, planen Sie bitte, Ihre Anwendungen, Eingabeaufforderungen und API-Aufrufe innerhalb der nächsten 20 Werktage (basierend auf dem Geschäftskalender von Basel, Schweiz) auf die empfohlenen Alternativen umzustellen.

Da Ausgabemerkmale und Werkzeugverhalten je nach Modell variieren können, empfehlen wir, vor der Umstellung die Kompatibilität mit Eingabeaufforderungen, strukturierte Ausgaben, Latenz und die allgemeine Antwortqualität zu überprüfen.

Empfohlene nächste Schritte
  • Identifizieren Sie die Anwendungen und Arbeitsabläufe, die derzeit die betroffenen Modelle verwenden.
  • Aktualisieren Sie die Modellreferenzen auf die empfohlenen Ersatzmodelle.
  • Testen Sie die Kompatibilität der Eingabeaufforderung, die Latenz, die Ausgabequalität und die Integration in nachgelagerte Systeme.
  • Die Migration muss vor dem mitgeteilten Stilllegungstermin abgeschlossen sein.
Support

Bitte wenden Sie sich an Ihr Account-Team oder Ihren Support-Mitarbeiter, wenn Sie Unterstützung bei der Auswahl oder Validierung des am besten geeigneten Ersatzes für eine bestimmte Arbeitslast benötigen.