Bir ürün seçerken ChatGPT'den tavsiye mi alıyorsunuz? Aynı soruyu 100 kez sorduğunuzda, 100 farklı cevap alacağınızı bilin. Bu, Rand Fishkin ve Patrick O'Donnell tarafından yapılan yeni bir araştırmanın ortaya koyduğu bir gerçek. Araştırmacılar, yaklaşık 3.000 yapay zeka yanıtını analiz etti. Sonuçları net: Yapay zeka araçları, marka veya ürün tavsiyeleri konusunda güvenilir değil ve yapay zeka görünürlüğü takibi pazarı, yıllık 100 milyon dolardan fazla bir değere sahip olmasına rağmen, zayıf temellere dayanıyor.

Öne Çıkan Noktalar:

  • Yapay zekalar, her 100 sorudan 99'unda farklı listeler veriyor: ChatGPT, Claude ve Google AI, aynı isteğe rağmen neredeyse benzersiz tavsiyeler üretiyor.
  • Ürün sıralaması mantıksız: Yapay zeka yanıtlarındaki bir markanın konumu tamamen rastgele ve sürekli değişiyor.
  • “Görünürlük” ölçümü kullanılabilir: Bu karmaşaya rağmen, bir markanın yüzlerce istekte ne sıklıkla göründüğü, geçerli bir ölçüt oluşturabilir.
  • İnsanların soruları son derece çeşitli: Google aramalarının aksine, kullanıcılar yapay zekaya sorularını radikal şekilde farklı şekillerde ifade ediyor.

Büyük Ölçekli Bir Deneyim

Araştırma, ABD'deki en popüler üç yapay zeka aracına 12 farklı istem sunan 600 gönüllüyü kapsadı: ChatGPT, Claude ve Google AI (AI Overview ve AI Mode aracılığıyla). Toplamda, 2.961 istek kaydedildi, analiz edildi ve normalleştirildi.

Araştırmacılar, B2C ve B2B'yi kapsayan çeşitli sektörlerde farklı istemler seçti. Örneğin: "300 $ altındaki bir bütçe ile amatör bir aşçı için en iyi şef bıçakları, marka ve model nedir?" veya "e-ticaret konusunda uzmanlaşmış en iyi dijital pazarlama danışmanları kimlerdir?".

Yapay Zekaların Tutarsızlığı Üzerine Şaşırtıcı Sonuçlar

Sonuçlar, şaşırtıcı bir değişkenlik gösteriyor. Test edilen her istem için önerilen benzersiz marka sayısı sektöre göre birkaç ondan yüzlerceye kadar değişiyor.

Daha da rahatsız edici olan, üç faktörün her yanıtla değişmesidir:

  • Sunulan tavsiye listesi
  • Listede yer alanların sırası
  • Listede toplam eleman sayısı (bazen 2-3, bazen 10'dan fazla)

Aynı listeyi iki kez alma olasılığı 100'de 1'den az. Aynı listeyi aynı sırayla alma olasılığı ise 1.000'de 1'den az. Bu rakamlar, test edilen tüm araçlar için geçerli, konu ne olursa olsun.

Yapay zekalar tarafından belirtilen benzersiz marka sayısı - Kaynak: SparkToro

Tıbbi Tavsiyelerin Dramatik Durumu

Araştırma, bu sorunu çarpıcı bir örnekle gösteriyor: Amerikan batı kıyısındaki en iyi kanser hastanesi arayışı. En iyi bilginin kritik olduğu bir durumda bile, Google AI o kadar rastgele listeler üretiyor ki, neredeyse aynı yanıtı iki kez görmek mümkün olmuyor.

Araştırmacılar, yapay zeka araçlarının tavsiye listelerinin bir "istatistiksel piyango" ürünü olduğunu belirtmek için bir uyarı göstermesini savunuyor ve bu listelerin nesnel kriterlere dayalı sıralamalar olmadığını vurguluyor. Bunlar yalnızca yapay zekanın eğitim verisinde sıkça takip edilen "tokenlar"dır.

Görünürlük Ölçütü: Bir Umut Işığı mı?

Bu görünüşteki karmaşaya rağmen, araştırma potansiyel olarak geçerli bir ölçüm belirliyor: görünürlük yüzdesi. Aynı isteği onlarca veya yüzlerce kez tekrarlayarak, hangi markaların yapay zeka değerlendirmesinde en sık göründüğünü belirlemek mümkün.

Yapay zeka yanıtlarındaki en iyi 3 markanın görünürlük oranı - Kaynak: SparkToro

Örneğin, Google AI'ya e-ticaret dijital pazarlama danışmanları sorulduğunda, Smartsites ajansı 95 yanıttan 85'inde görünmektedir, bu da %89 görünürlük anlamına geliyor. Bu görünme sıklığı, yapay zekanın marka ile arama niyeti arasında bir ilişki düzeyi oluşturduğunu gösteriyor.

Görünürlük oranı sektörün büyüklüğüne göre de değişiyor. Az sayıda oyuncunun bulunduğu alanlarda (örneğin, SaaS başlangıçları için bulut sağlayıcıları), en çok bahsedilen tavsiyeler %90-100 görünürlük oranına ulaşabiliyor. Buna karşın, geniş alanlarda, örneğin son dönem bilim kurgu romanlarında, görünürlük oranları %30-40 civarında daha da dağılmış durumda.

İnsanların İstemlerindeki Aşırı Çeşitlilik

Araştırmanın ikinci aşaması, gerçek insanların oluşturduğu istemlerin değişkenliğini inceledi. 142 gönüllü, seyahatteki bir aile üyesi için kulaklık seçmek üzere bir istek formüle etmeye davet edildi. Sonuç: neredeyse hiçbir istem birbirine benzemiyordu.

Anlam benzerliği analizi, ortalama olarak iki istemin "Kung Pao tavuğu" ve "fıstık ezmesi" kadar benzer olduğunu gösteren 0,081 puan verdi: ortak malzemeler, ancak çok farklı kavramlar.

Google aramalarında kullanıcılar niyetlerini 2-5 anahtar kelime ile sınırlarken, yapay zeka istemleri yaratıcı, detaylı ve son derece spesifik. Bu bulgu, yapay zeka görünürlüğü takibini daha da karmaşık hale getiriyor.

Kaosun Beklenmedik Bir Düzeni Bulması

Araştırmanın son sürprizi: İnsanların istemlerindeki büyük çeşitliliğe rağmen, yapay zekaların önerdiği markalar nispeten tutarlı kalıyor. Kulaklıklar üzerine sunulan 142 benzersiz istem, toplamda 994 yanıt üretti. Bu grupta Bose, Sony, Sennheiser ve Apple gibi markalar %55-77 oranında yer alıyor.

Benzersiz istemler, ancak tutarlı öneriler - Kaynak: SparkToro

Bu tutarlılık, diğer tür kulaklıklar (oyun, podcast, gürültü azaltma) üzerine yapılan isteklerle karşılaştırıldığında bile devam ediyor ve bu da tamamen farklı listeler üretiyor. Yapay zekalar, istemlerin değişken formülasyonuna rağmen altındaki niyeti kavrama yeteneğine sahip gibi görünüyor.

Test, geniş bir B2B sektöründe (kafeler için marka tasarım ajansları) tekrarlandı ve sonuçlar beklentilere uygun çıktı: istemlerin anlam çeşitliliği yüksek, en çok alıntılanan markalar için görünürlük oranı %30-40 civarında.

Yapay Zeka Takip Endüstrisi Baskı Altında

Bu bulgular, yıllık 100 milyon dolardan fazla bir değere sahip olduğu tahmin edilen yapay zeka görünürlüğü takibi pazarındaki zayıflıkları ortaya koyuyor.

Araştırmanın sonuçları net:

"Sıralama pozisyonunu" takip edeceğini vaat eden araçlar, boş vaatler sunuyor. Sıralama kavramı bu araçların her seferinde benzersiz yanıtlar üretmek üzere tasarlanmış bir sistemde hiçbir anlam ifade etmiyor.

Öte yandan, bir markanın görünürlük yüzdesini onlarca veya yüzlerce tekrarlanan istekle ölçmek istatistiksel olarak geçerli görünüyor. Bu, belirsiz ama kullanılabilir bir ölçüt olup, dart ile bir hedefi vurmak gibidir.

Cevapsız Sorular

Araştırma, sınırlamalarını kabul ediyor ve ek araştırmalar gerektiren soruları belirliyor:

  • Bir markanın görünürlüğü hakkında istatistiksel olarak anlamlı yanıtlar almak için bir istemi kaç kez tekrarlamak gerekir?
  • Yapay zekalara yapılan API çağrıları, kullanıcıların manuel olarak karşılaştığı çeşitliliği doğru bir şekilde yansıtıyor mu?
  • Belirli bir sektör hakkında anlamlı veriler elde etmek için ne kadar çeşitlilik ve ne kadar miktarda istem gereklidir?

Araştırmacılar, genellikle önemli risk sermayeleri tarafından desteklenen yapay zeka takip şirketlerini şeffaf metodolojiler ve doğrulanabilir araştırmalar yayınlamaya çağırıyor.

Pazarlamacılar İçin Tavsiyeler

Yapay zeka görünürlüğü takibine yatırım yapmayı düşünen pazarlama profesyonelleri için, araştırmanın yazarları birkaç öneride bulunuyor:

  • İstatistiksel olarak temellendirilmiş ve kamuya açık olarak doğrulanabilir araştırmalar yayınlamayan araçlara yatırım yapmayın. Sağlayıcılardan bu çalışmanın ortaya koyduğu sorulara yanıt vermelerini ve hesaplamalarını göstermelerini talep edin.
  • Yapay zeka "sıralama" metriklerini unutun. Bu araçların olasılıksal işleyişi göz önüne alındığında, matematiksel olarak saçmadır.
  • Bir şeyi ölçmeniz gerekiyorsa, çeşitli istekler üzerinden hesaplanan görünürlük yüzdesine odaklanın.
  • Yapay zekaların olasılık motorları olduğunu anlayın, gerçeklik kaynakları değildir. Her seferinde benzersiz yanıtlar üretirler. Onlardan tutarlılık beklemek, işleyişleriyle temelde çelişiyor.