Neden her dilde yapay zeka destekli çeviri yapılamıyor?

ChatGPT gibi yapay zeka destekli araçlar, destekledikleri dili biliyorsanız harika fırsatlar sunuyor.

Ancak Etiyopya'nın başkenti Addis Ababa'da bulunan Ashagari danışmanlık şirketinin kurucusu Mekdes Gebrewold, Amharca dilinde makine çevirisinin imkansız olduğunu söylüyor. DW'ye konuşan Gebrewold, "Google Çeviri gibi araçlar Amharca için iyi yapılandırılmamış. Bunun yerine profesyonellere para ödüyoruz" diyor.

Mekdes Gebrewold gibi milyarlarca insan, yapay zeka destekli araçlardan anadillerinde yararlanamıyor.

Bu durum yalnızca ChatGPT gibi üretken yapay zeka destekli araçlar veya Google Çeviri (Translate) gibi çeviri hizmetlerine özgü değil. Otomatik tamamlama, metin çözümleme, sesli asistanlar ve sosyal medyadaki içerik denetimi gibi birçok yapay zeka destekli araç, farklı dillerde hizmet verme konusunda yetersiz.

Ancak bazı şirketler bunu değiştirmeye çalışıyor.

Yapay zeka destekli araçlar nasıl çalışıyor?

Aslında modern yapay zeka araçları, aldıkları girdiye göre en olası yanıtı tahmin ediyor. Gelişmiş otomatik tamamlama araçlarının yaptığı bu tahminler, yapay zeka mühendislerinin modellerini oluşturmak için kullandıkları "eğitim verilerine" dayanıyor. Dijital içerik koleksiyonlarından oluşan bu eğitim verileri çok büyük yer kaplıyor.

Common Crawl, bu eğitim verileri için önemli bir kaynak. Common Crawl, internetteki milyarlarca web sayfasından oluşan bir veri kümesi ve açık kaynak olarak erişilebiliyor. Yapay zeka destekli ChatGPT- 3.5 sürümünü eğitmek için kullanılan verilerin yaklaşık yüzde 60'ı bu koleksiyondan alınmıştı.

Yapay zeka araçları, bazı dillerdeki eğitim verileri kısıtlı olduğu için farklı dillerde aynı performansla çalışmıyor. İnternetteki içerikler yoğun olarak birkaç dilde oluşturulduğu için, birçok dilde yapay zeka eğitim verisi bulmak bir sorun.

Örneğin İngilizce, Common Crawl'daki tüm içeriklerin neredeyse yarısını oluşturuyor.

Öte yandan diğer tüm Afrika, Amerika ve Okyanusya dilleriyle birlikte Amharca, Common Crawl verilerinin yüzde 0,1'inden azını oluşturuyor. Amharca çok az dijital veri üretilen, düşük kaynaklı bir dil olarak biliniyor. Dünyada milyarlarca insan düşük kaynaklı dilleri konuşuyor. Çok sayıda kişinin konuştuğu Hintçe, Arapça ve Bengalce gibi diller bile düşük kaynaklı dil olarak görülüyor.

Avrupa dilleri ise Asya ve Afrika dillerinin çoğuna kıyasla eğitim verilerinde daha fazla içerik sahibi. Örneğin Flemenkçe, Amharca'ya benzer şekilde 20 milyondan fazla kişi tarafından anadil olarak konuşuluyor. Ancak Flemenkçe, Common Crawl veri setinde Amharca'ya kıyasla neredeyse 700 kat daha fazla yer alıyor. Flemenkçe, Common Crawl veri setinde 300 milyondan fazla kişinin anadili Hintçe'den bile yüzlerce kat daha fazla içeriğe sahip.

Ancak bu veri eksikliğini gidermenin yolları var.

Silikon Vadisi'ndeki teknoloji devlerinin dışında, dünyanın her yerindeki makine öğrenimi araştırmacıları, kendi dilleri için yapay zeka destekli araçlar geliştiriyor.

Yapay zeka destekli araçlarda dil açığı nasıl kapatılır?

Asmelash Teka Hadgu, Etiyopya'daki Amharca ve Tigrinya dillerinde makine çevirisi ve konuşma teknolojisi sağlayan bir startup olan Lesan'ın kurucu ortağı. Bu dillerde çok büyük miktarda online kaynak bulunmadığından, Hadgu'nun ekibi doğrudan bu dilleri konuşan topluluklarla çalışıyor ve veri toplamanın yaratıcı yollarını buluyor.

DW'ye konuşan Hadgu, "Genellikle kendi dillerini seven öğrencilerle çalışıyoruz" diyor. Öğrenciler için Hadgu, "Onlara böyle bir şey ürettiğimizi söylediğimizde etkileniyorlar ve katkıda bulunmak istiyorlar. Bu yüzden kendi dilimizde içerik toplamak için görevler belirledik. Onlara yardımcı oluyoruz ve finansal olarak çalışmalarının karşılığını veriyoruz" ifadelerini kullanıyor.

Böylesi bir veri toplama süreci çok fazla el emeği gerektiriyor. Katkıda bulunan kişiler, öncelikle güvenilir kitaplar veya gazeteler gibi yüksek kaliteli veri kümelerini belirliyor ve ardından bunları dijitalleştirerek hedef dillere çeviriyorlar. Son olarak bu kişiler, makine öğrenimi sürecine rehberlik etmek için orijinal ve çevrilmiş versiyonları cümle cümle sıralıyorlar.

Bu yöntem, Lesan gibi şirketleri, milyarlarca sayfa İngilizce içeriğe sahip araçlara rakip hale getirmez. Ancak başka avantajlar sağiayabilir. Örneğin Lesan, hem Amharca hem de Tigrinya'da Google Çeviri'den daha iyi performans gösteriyor.

Asmelash Teka Hadgu, bu durumu "Küçük, dikkatle seçilmiş veri kümelerini kullanarak kullanışlı modeller oluşturulabileceğini gösterdik" diye açıklıyor. Hadgu, bu modeller için "Sınırlamalarını ve yeteneklerini anlıyoruz. Bu esnada Microsoft veya Google genellikle tüm diller için tek, devasa bir model oluşturuyor, dolayısıyla bu modelin denetlenmesi neredeyse imkansız" diye ekliyor.