Büyük Dil Modelleri En Çok Reddit’ten Alıntı Yapıyor
ChatGPT dahil olmak üzere büyük dil modelleri, sorgulamalara cevap verirken en çok alıntıyı yüzde 40 oranıyla Reddit sosyal medya platformundan yapıyor.
Büyük dil modelleri ChatGPT’nin ortaya çıkışıyla popüler hale gelmiş ve sonrasında Gemini, DeepSeek, Llama ve Grok gibi çeşitli modellerin piyasaya sürülmesiyle hayatımızın ayrılmaz bir parçası haline gelmiştir.
Bu büyük dil modellerinin yetenekleri tüm dünyada ses getirirken, aynı zamanda bu modellerin beslendiği kaynaklar uzun süredir tartışma konusu olmuştur.
ChatGPT ve diğer birçok büyük dil modeli, cevaplarını oluştururken genellikle kamuya açık internet sitelerinden yararlanmaktadır.
Reddit, Yüzde 40’la Lider Konumda
Online istatistik portalı Statista, yapay zeka dil modellerinin kullandığı kaynakları inceledi. Haziran ayında yapılan araştırmaya göre yılın ilk çeyreğinde, büyük dil modelleri tarafından en çok alıntı yapılan web siteleri arasında, yüzde 40,11 oranıyla reddit.com ilk sırada yer almaktadır.
Uzmanlara göre, yapay zeka modellerinin, Reddit gibi gerçek kişilerin doğal konuşmalarını içeren platformlardan alıntı yapması, bu modelleri geliştirenlerin resmi bilgilerden ziyade gerçek yaşam konuşmalarına daha fazla önem verdiklerini göstermektedir.
Bunun yanı sıra, büyük dil modelleri, Reddit’ten sonra yüzde 26,3 oranıyla “internet ansiklopedisi” olarak bilinen Wikipedia’dan da yoğun olarak alıntı yapmaktadır.
Yapılan araştırmaya göre, düzenlenmiş makaleleri kullanarak bilgi sağlayan Wikipedia, Reddit verilerinden elde edilen bilgilerden biraz daha geride kalmaktadır.
Hangi dil modelinin hangi kaynağı ne sıklıkla kullandığına dair bilgilerin yer aldığı listede, üçüncü sırada yüzde 23,5 ile Youtube, yüzde 23,2 ile Google, yüzde 21 ile yelp.com, yüzde 19,9 ile Facebook, yüzde 18,7 Amazon, yüzde 12,4 ile Tripadvisor, yüzde 11,2 ile mapbox.com ve yüzde 11,2 ile openstreetmap.com bulunmaktadır.
Google ve Reddit Arasında Yapay Zeka Eğitim Anlaşması
Sosyal medya devleri ile yapay zeka geliştiricileri arasında yapay zeka modellerinin eğitimiyle ilgili anlaşmalar yapılmaktadır.
2024 yılında Google ve Reddit arasında gerçekleştirilen anlaşma ile Google’ın yapay zekâları Reddit verileriyle beslenmektedir.
Reuters’ın haberine göre, Google, Reddit’e yılda 60 milyon dolar ödeme yapacak. Ayrıca Reddit, OpenAI şirketiyle ChatGPT’de kullanılan verilerin paylaşılması için de başka bir anlaşma yapmıştır.
Bu anlaşmalar, yapay zekânın cevaplarında Reddit’in rolünü daha da güçlendirmektedir. (AA)