Mistral AI, Mistral Vibe 2.0 lansmanının ardından, iki ses transkripsiyon modeli olan Voxtral Transcribe 2'yi tanıttı. Bu modeller, işletmelerin ihtiyaçlarını karşılamak üzere tasarlandı. Bu teklifin en büyük avantajı, OpenAI, Google veya Amazon gibi sektör devleriyle karşılaştırılabilir performans sunması, ancak fiyatının beşte biri olmasıdır. Bugünden itibaren kullanılabilir olan bu modeller, Mistral'ın ses yapay zeka pazarındaki genişleme stratejisinin bir parçasını oluşturmaktadır.
Öne Çıkanlar:
- Mistral AI, iki transkripsiyon modeli sunuyor: Voxtral Mini Transcribe V2 toplu işlem için ve Voxtral Realtime gerçek zamanlı transkripsiyon için
- Her iki model de 13 dili destekliyor ve hata oranı yaklaşık %4, bu da piyasadaki en iyi fiyat-performans oranını sağlıyor (Mini için 0,003 $/dakika ve Realtime için 0,006 $/dakika)
- Voxtral Realtime, 200 ms'den daha az bir gecikme ile yapılandırılabiliyor ve 4 milyar parametre ile akıllı telefon veya bilgisayar üzerinde yerel olarak çalışabiliyor
- Performansları, GPT-4o mini Transcribe ve Gemini 2.5 Flash'ı geçiyor ve rakip çözümlerden beş kat daha ucuz
Voxtral Mini Transcribe V2: Büyük Hacimler İçin Güç
İlk model olan Voxtral Mini Transcribe V2, büyük hacimli ses dosyalarını tek seferde transkribe etmek için ideal bir çözüm olarak konumlanıyor. Katılımcılara göre bölme (diarizasyon), bağlamsal önyargı ve kelime düzeyinde hassas zaman damgaları gibi gelişmiş özellikler içeriyor. Etkileyici kapasitesi: tek bir istekte 3 saate kadar kayıtları işleyebilme yeteneği.
13 dili (İngilizce, Çince, Hintçe, İspanyolca, Arapça, Fransızca, Portekizce, Rusça, Almanca, Japonca, Korece, İtalyanca ve Flemenkçe) destekleyen bu model, yaklaşık %4 hata oranı sunuyor. Hız açısından, sesi, ElevenLabs'ın Scribe v2'sinden yaklaşık üç kat daha hızlı işliyor ve eşit kalitede sonuçlar veriyor. Mistral, GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal ve Deepgram Nova'dan daha iyi performans sunduğunu iddia ediyor.
Dakikada 0,003 dolar
Voxtral Realtime: Yerel Erişim ile Anlık Transkripsiyon
İkinci model olan Voxtral Realtime, canlı transkripsiyon için özel olarak tasarlanmıştır. Ana avantajı, 200 ms'den daha az yapılandırılabilir ultra düşük gecikmesidir; bu, canlı altyazı veya sesli etkileşimli ajanlar gibi gerçek zamanlı uygulamalara olanak tanır.
Sadece 4 milyar parametre ile Voxtral Realtime, akıllı telefon veya bilgisayar üzerinde yerel olarak çalışacak kadar kompakt olup, sürekli bir bulut bağlantısına ihtiyaç duymuyor. Bu özellik, veri gizliliği ve güvenliği gerektiren uygulamalar için ilginç olanaklar sunuyor. Model, ayrıca geliştiricilerin projelerine serbestçe entegre edebilmesi için Apache 2.0 lisansı altında açık ağırlıklarla mevcuttur.
Mistral'ın testleri, 2,4 saniye gecikme ile (altyazı için optimum) Realtime'ın, toplu işleme modelinin performansına eşit olduğunu gösteriyor. Gecikme 480 ms'ye düşürüldüğünde bile, hata oranı %1-2'nin altında kalarak, gecikmeli işleme ile neredeyse eşit bir doğruluk sağlıyor. Bu performans, Google'ın yaklaşık 2 saniye gecikme ile sunduğu çözümden daha üstündür.
API üzerinden dakikada 0,006 dolar fiyatlandırılan Voxtral Realtime, Mistral Studio'da veya Le Chat chatbot'u aracılığıyla ücretsiz olarak test edilebilir; bu da geliştiricilerin benimsemesini kolaylaştırmaktadır.
Ses Yapay Zekasında Stratejik Bir Konumlanma
Bu çift duyuru ile Mistral AI, Amazon, Google, Microsoft ve OpenAI gibi teknoloji devleri ile rekabet edebilme yeteneğini kanıtlıyor. Fransız yaklaşımı, agresif bir iş modeli ile kendini ayırt ediyor: beşte bir maliyetle karşılaştırılabilir performanslar sunmak.
Paris merkezli start-up, stratejik lansmanlarını artırıyor. Bu duyurudan birkaç gün önce, tüm yapay zeka değer zincirini kapsama isteğini doğrulayan Vibe 2.0'ı tanıttı. Çince, Hintçe, Arapça, Japonca ve Korece gibi Avrupa dışı dilleri de içeren 13 dil desteği, küresel bir hedefi yansıtıyor.
Kullanıcıların diarizasyon ve zaman damgaları ile transkripsiyon yeteneklerini anında test etmelerini sağlayan Mistral AI Studio'da bir ses test alanı oluşturdu. Bu erişilebilirlik stratejisi, Voxtral Realtime'ın açık ağırlıklarla yayınlanması ile birleştiğinde, bu teknolojilerin Fransız ve Avrupa yapay zeka ekosisteminde hızla yayılmasını sağlayabilir.
Yorumlar
(7 Yorum)