Yapay Zeka Sesli Asistanlara Dönüşüyor: Gemini 2.5’e Yeni Araçlar Eklendi!
Google, I/O etkinliğinde tanıttığı yeni AI modeli Gemini 2.5 ile sesli diyalog ve üretim yeteneklerinde devrim yaratıyor.

Google I/O etkinliğinde tanıtılan Gemini 2.5, yapay zeka destekli sesli diyalog ve üretim yeteneklerinde çığır açıyor. Bu yeni model, dünya genelinde çeşitli ürünler ve diller arasında kesintisiz sesli etkileşimler sunarak yapay zeka ile iletişim kurma şeklimizi baştan aşağı değiştirmeyi hedefliyor.
Gemini 2.5, NotebookLM’nin Sesli Genel Bakışları ve Project Astra gibi uygulamalara entegre edildi. Modelin temel özelliği, gerçek zamanlı sesli konuşmalara öncelik vermesi. Bu sayede yapay zeka, konuşmayı doğal ton, stil ve bağlamsal farkındalıkla yorumlayabiliyor ve üretebiliyor. Peki bu temel ses diyaloğunun özellikleri neler? İşte cevabı.
Gemini 2.5 İçin Temel Ses Diyalog Özellikleri:
- Akıcı ve Doğal Etkileşim: Düşük gecikmeyle, doğal ritim ve uygun duygusal ifadeye sahip sesli sohbetler sunuyor.
- Konuşma Özelleştirme: Kullanıcılar, doğal dil komutlarıyla aksanları, tonları veya hatta fısıltı çıkışını ayarlayarak konuşma iletimini değiştirebiliyor.
- Harici Araç Entegrasyonu: Google Arama veya özel geliştirici çözümleri gibi araçlardan gelen gerçek zamanlı verileri görüşmelere dahil edebiliyor.
- Çevresel Filtreleme: Arka plan gürültüsü veya alakasız seslerden ilgili konuşmayı ayırarak sadece uygun olduğunda yanıt veriyor.
- Multimedya Anlayışı: Canlı video yayınları veya paylaşılan ekranlardan gelen içerikleri analiz edip tartışabiliyor.
- Dil Esnekliği: 24’ten fazla dili destekliyor ve tek bir etkileşimde birden fazla dilin sorunsuz bir şekilde harmanlanmasına olanak tanıyor.
- Duygulara Duyarlı Diyalog: Kullanıcının ses tonuna göre tepkilerini uyarlıyor ve konuşmadaki nüansları tanıyor.
- Gelişmiş Muhakeme: Karmaşık görevlerde daha tutarlı ve akıllı konuşmalar için geliştirilmiş mantıksal yeteneklerden faydalanıyor.
Metinden Konuşmaya (TTS) Özelleştirme
Gemini 2.5, ses üretimi üzerinde de üst düzey kontrol sunarak kullanıcıların konuşma çıkışını hassas bir şekilde ayarlamasına olanak tanıyor:
- Şiir, yayın veya hikayeler için farklı duygu ve aksan seçenekleriyle ilgi çekici anlatımlar.
- Özelleştirilebilir konuşma temposu ve doğru telaffuz ayarlamaları ile ses netliği artırıldı.
- Daha fazla etkileşim için konuşma özetleri gibi çift konuşmacılı diyalogların oluşturulması.
- Çok dilli içerik için 24’ten fazla dilde kusursuz ses üretimi
Google, Gemini 2.5’in ses özelliklerinin geliştirilmesi sırasında kapsamlı risk değerlendirmeleri yaptığını belirtiyor. Güvenlik önlemleri, dahili ve harici testler (kırmızı takım çalışması dahil) yoluyla iyileştirildi. Yapay zeka tarafından üretilen tüm sesler, Google’ın filigranlama teknolojisi olan SynthID’yi içeriyor ve bu sayede yapay zeka tarafından üretilen içerikler açıkça tanımlanabiliyor.
Geliştiriciler İçin Erişim
Geliştiriciler, Gemini 2.5’in ses yeteneklerini, Google AI Studio ve Vertex AI ortamları üzerinden erişilebilen Gemini API’si aracılığıyla kullanabilecekler.
- Etkileşimli Ses Testi: Geliştiriciler, Google AI Studio’nun akış sekmesinde Gemini 2.5 Flash’ı kullanarak gerçek zamanlı sesli konuşmalarla denemeler yapabilirler.
- Konuşma Oluşturma Araçları: Hem Gemini 2.5 Pro hem de Flash, Google AI Studio’daki medya oluşturma sekmesi aracılığıyla kullanılabilen ses oluşturmayı destekliyor.