OpenAI 11 Haziran tarihinde internet sitesinden yaptığı açıklamayla GPT-3 ürünüyle ilgili detaylara yer verdi ve ilgili API’ı (Application Programming Interface) erişime açtı. Yapay sinir ağlarının, yüksek sayıda parametrelerle büyük hacimli veri setleri üzerinde eğitilmesi sonucu geliştirilen model özellikle dil odaklı görevleri yerine getirebilmesiyle biliniyor.
GPT Nedir?
2018 yılında Elon Musk’ın kurucuları arasında bulunduğu OpenAI şirketi ilk versiyon GPT’yi (General Pretrained Transformer) yayınlamıştı. Tam anlam karşılığı ‘’Genel Eğitilmiş Dönüştürücü’’ olan modelin amacı verilen kelimelerden makale yaratımı gibi farklı dil görevlerini yerine getirmekti. İlk versiyonun üzerinden bir sene geçmeden tanıtılan GPT-2 ise işlevsel kapasitesini artırmakla beraber sahte haber geliştirme gibi topluma zarar verebileceği düşünülen aktivitelerde kullanılmaması adına halka açık kullanımı için yaklaşık 9 ay boyunca bekledi. Unsupervised yani gözetimsiz bir modele sahip olan GPT-2’nin ürettiği yazıların bir makine mi yoksa bir insan tarafından mı yazıldığının anlaşılmasının oldukça zor olabileceğini belirten uzmanlar, modelin sahte haberleri belirlemeye yarayabileceğini açıkladı. Cornell Üniversitesi’nden uzmanlarla yapılan çalışmalarda GPT-2’nin ürettiği yazıların neredeyse New York Times makaleleri kadar özgün olduğunu düşünen okuyucu görüşleriyle artan kuşku, modelin herhangi bir zararlı aktivitede kullanılmasından ziyade gramer düzenleme ve sağlık alanında soru-cevap sistemi geliştirme gibi işlerde verimli olarak kullanıldığının farkına varılmasıyla kullanıma açıldı.
GPT-3 ve GPT-2 Farkı
Araştırmacılar tarafından, farklı görevler üzerinde sıfıra yakın ince ayarla çalışabilecek bir NLP (Doğal Dil İşleme Süreci) modeli geliştirmek olarak tanımlanan hedef OpenAI’ın önceki çalışmalarından da elde edilen tecrübelere göre daha geniş hacimli bir model ile mümkün görünüyordu. Bu doğrultuda modelin eğitileceği parametre ve veri setini genişleten ekip; GPT-2’de kullanılana kıyasla 100 kattan fazla parametre kullandı. GPT-2, 1,5 milyar parametrenin 8 milyon doküman ve Reddit’te paylaşılan yazılardan oluşan 40 GB boyutundaki metin dosyası üzerinde eğitilmesinden oluşan bir modeldi. Sonraki versiyon olan GPT-3’te ise 175 milyar parametre aralarında Common Crawl ve İnglizce dilinde tüm Wikipedia’nın da bulunduğu farklı kaynaklara sahip olan 45 tera-byte’lık veri seti üzerinde eğitildi. Bu seviyede hacim farkına sahip olan veri setinin karşılığı da test sürecinde LAMBADA dil modelleme görevinde yeni rekorun elde edilmesi gibi başarılarla alındı. Kullanılan veri seti ve sonuç bağlamında Moore modeline uygun ilerleyen GPT projesinin sonraki versiyonunda da benzeri bir ilerleme beklentisi mevcut.
GPT-3 ve Yapabildikleri
GPT-3 geniş bir işlev ağına sahip; uzun yazılar yazmak, herhangi bir konuda tweet oluşturmak, şiir yazmak, gramer düzeltmek gibi temel sayılabilecek işleri insan kapasitesine yakın bir şekilde yapabiliyor. Bunlara ek olarak en çok dikkat çeken fonksiyonlar ise müzik besteleyebilmesi, farklı yazarların stillerini taklit edebilmesi, farklı dillerden temel bilgi gerektiren sorulara yanıt verebilmesi ve kod yazabilmesi. Özellikle geçtiğimiz hafta GPT-3’ün verilen görsel/fonksiyonel tariflere uygun olarak kod yazabilmesi birçok kişi tarafından paylaşılarak kısa süreli bir gündem oluşturmuştu. GPT-2’ye kıyasla daha geniş yelpazede çözümler üretebileceğini gösteren GPT-3’ün tarifleri koda çevirebilmesinin ne kadar verimli olduğu ilk aşamada sorgulanmaya başlansa da metodolojik olarak önemli bir avantaja sahip. Pre-trained modellerin gerekli ince ayarlar yapılarak hedeflenen sorunlara çözüm geliştirmede kullanılması son zamanlarda NLP alanında yaygın olarak kullanılıyor olsa da OpenAI’ın ince ayar’a olan gerekliliği ortadan kaldırma hedefi GPT-3’ü hepsinden farklı bir noktada konumlandırıyor. Dolayısıyla henüz ilk evre kullanıma açık olan modelin verimi ve geleceğe yönelik potansiyeli belirsiz olsa da alana getirdiği farklı yaklaşım ve ilgi çekici uygulamalar şimdiden teknoloji adına büyük önem taşıyor.