Apple Speech OpenAI Whisper’dan %55 Daha Hızlı

Apple Speech, 34 dakikalık bir videoyu 45 saniyede metne dökerek OpenAI Whisper’a fark attı. Yeni API hız rekoru kırıyor.

Muhammed Kayan

18/06/2025

Apple, WWDC 2025 etkinliğinde tanıttığı yeni Speech API’si ile sesli içerikleri metne dönüştürme hızında önemli bir adım attı. Yapılan testlerde Apple Speech, OpenAI’nin popüler Whisper modeliyle karşılaştırıldığında %55 daha hızlı sonuç verdi. 7GB boyutunda ve 34 dakika uzunluğundaki bir 4K video, Apple’ın yeni altyapısıyla sadece 45 saniyede çözümlendi.

Yeni Speech framework’ü iki ana modülden oluşuyor: SpeechAnalyzer ve SpeechTranscriber. Geliştiriciler için sunulan bu modüller, Yap adlı uygulama üzerinden test edildi. Testte aynı dosya MacWhisper (Whisper’ın Mac sürümü) ile işlendiğinde 1 dakika 41 saniye sürdü. Böylece Apple Speech, rakibine açık fark atmış oldu.

Apple Speech Performansıyla Rakiplerini Geride Bıraktı

Karşılaştırmada Apple Speech tabanlı Yap uygulaması, benzer amaçla kullanılan diğer araçlara göre de öne çıktı. Aynı video dosyası VidCap’te 1 dakika 55 saniyede, MacWhisper V2’de ise yaklaşık 4 dakikada işlenebildi. Yap, 45 saniyelik süreyle rakiplerine göre ciddi bir zaman tasarrufu sağladı ve çıktı dosyalarını hem SRT hem de TXT formatında sundu.

Apple Speech

Testlerde, özel isimlerin doğru tanınmasında tüm araçlarda ufak hatalar olduğu belirtildi. Ancak Yap’ın yerel çalışma avantajı sayesinde hız farkı daha da belirgin hale geliyor. Özellikle birden fazla video veya uzun dosya üzerinde düzenli çalışanlar için bu hız, haftalık toplamda önemli bir verimlilik artışı anlamına geliyor.

Apple’ın yeni Speech API’sinin bu hız performansı, geliştiricilerin ve içerik üreticilerinin iş akışını ciddi ölçüde hızlandırabilir. Yeni araç, ilerleyen dönemde daha fazla uygulamada kullanılmaya başladığında, sesli içeriklerden metin elde etme süresi büyük ölçüde kısalacak gibi görünüyor.