Araştırma: Yapay zeka ChatGPT, 1964'te tasarlanan ELIZA'nın gerisinde kaldı

Araştırma: Yapay zeka ChatGPT, 1964'te tasarlanan ELIZA'nın gerisinde kaldı

Günümüzün en başarılı sohbet robotu olan GPT-3.5 destekli ChatGPT, yapılan bir araştırmaya göre, 1960’lardan kalan ve ilk sohbet robotlarından birisi olan ELIZA’ya Turing testinde yenildi.

Yapay zeka, kendini yönetebilen insanımsı cihazlar, 20. yüzyılın 2. yarısından beri insanlığın ajandasında.

"GPT-4 Turing Testini Geçiyor mu?" başlıklı bir araştırmadan sürpriz sonuçlar çıktı. UC San Diego'dan iki araştırmacı, OpenAI'ın GPT-4 yapay zeka dil modelini insan katılımcılarla, GPT-3.5 ve ELIZA ile karşı karşıya getirerek hangisinin katılımcıları insan olduğuna inandırmada daha başarılı olduğunu görmeye çalıştı.

Hakemli olmayan bu çalışma, insan katılımcıların oturumları yalnızca yüzde 63'ünde diğer insanları doğru bir şekilde tanımladığını ve 1960'lardan kalma ELIZA'nın ChatGPT'nin ücretsiz sürümüne güç veren yapay zeka modelini geride bıraktığını ortaya koydu.

indir.webp

Turing testi nedir?

İngiliz matematikçi ve bilgisayar bilimcisi Alan Turing, Turing testini ilk olarak 1950 yılında "The Imitation Game" ismiyle ortaya koymuştu. O zamandan bu yana, bir makinenin insan konuşmasını taklit etme yeteneğini belirlemek için ünlü ancak tartışmalı bir kriter haline geldi. Testin modern versiyonlarında, bir insan yargıç tipik olarak hangisinin hangisi olduğunu bilmeden ya başka bir insanla ya da bir sohbet robotuyla konuşuyor. Eğer yargıç sohbet robotunu insandan belirli bir oranda güvenilir bir şekilde ayıramazsa, sohbet robotunun testi geçtiği söylenir. Testi geçme eşiği özneldir, bu nedenle geçme başarı oranını neyin oluşturacağı konusunda hiçbir zaman geniş bir fikir birliği olmadı.

Ekim ayı sonunda arXiv'de yayınlanan çalışmada, UC San Diego araştırmacıları Cameron Jones ve Benjamin Bergen turingtest.live adlı bir web sitesi kurarak, GPT-4'ün farklı şekillerde uyarıldığında insanları insan olduğuna ne kadar iyi ikna edebileceğini görmek amacıyla Turing testinin iki oyunculu bir uygulamasını çevrimiçi olarak gerçekleştirdiler.

Donanımhaber'den Metin Akpınar'ın derlediği bilgilere göre; site aracılığıyla, insan sorgucular ya diğer insanları ya da yukarıda bahsedilen GPT-4, GPT-3.5 ve 1960'lardan kalma kural tabanlı bir konuşma programı olan ELIZA'yı içeren yapay zeka modellerini temsil eden çeşitli "yapay zeka tanıkları" ile etkileşime girdi. Teste katılan herkese rastgele roller atandı. Testte tanıklara sorgucuyu insan olduklarına ikna etmeleri talimatı verildi. Yapay zeka modelleriyle eşleşen oyuncular ise her zaman sorgucu rolündeydi.

En iyisi değil ama...

Deneyde 652 katılımcının toplam 1.810 oturum tamamladığı ve bunlardan 1.405 oyunun da analiz edildiği belirtiliyor. Şaşırtıcı bir şekilde, 1960'ların ortalarında MIT'de bilgisayar bilimcisi Joseph Weizenbaum tarafından geliştirilen ELIZA, çalışma sırasında yüzde 27'lik bir başarı oranı elde ederek nispeten iyi bir puan aldı. GPT-3.5, soruya bağlı olarak, ELIZA'nın gerisinde kalarak yüzde 14'lük bir başarı oranı elde etti. GPT-4 yüzde 41'lik bir başarı oranına ulaşarak gerçek insanlardan sonra ikinci sırada yer aldı.

ChatGPT'nin ücretsiz sürümünün arkasındaki temel model olan GPT-3.5, OpenAI tarafından özellikle kendisini bir insan olarak sunmaması için şartlandırılmıştı, bu da düşük performansını kısmen açıklayabilir.

Oturumlar sırasında sıkça kullanılan stratejiler arasında küçük sohbetler ve sorgulamalar yer alıyordu. Dilsel üslup ve sosyo-duygusal özelliklere dayalı olarak yapılan değerlendirmeler, katılımcıların kararlarını şekillendirmekte etkili olmuş gibi görünüyor. Ek olarak çalışma, eğitim seviyesi ve dil modellerine aşinalığın yapay zeka tespitinde belirleyici olmadığını gösteriyor.

Sonuç olarak, çalışmanın yazarları GPT-4'ün Turing testinin başarı kriterlerini karşılamadığı, ne yüzde 50 başarı oranına ulaştığı (50/50 şanstan daha yüksek) ne de insan katılımcıların başarı oranını aştığı sonucuna vardı.

HABERE YORUM KAT

UYARI: Küfür, hakaret, rencide edici cümleler veya imalar, inançlara saldırı içeren, imla kuralları ile yazılmamış,
Türkçe karakter kullanılmayan ve büyük harflerle yazılmış yorumlar onaylanmamaktadır.