En gelişmiş robotlar bile bugün insan sesi çıkaramıyor. Ancak robotlara insan sesi ile konuşma becerisini kazandırma çalışmaları hızla ilerliyor. Bu çalışmalar ayrıca konuşma engelli kişilerin konuşabilmelerine de olanak tanıyacak.
Waseda Talker bir robot. Ancak bu özel bir robot, çünkü konuşabiliyor. Son 10 yıldır elektronik olarak sentezlenmiş sesleri sık sık duymaya alışık olduğumuz için "Ne var bunda" diyebilirsiniz. Ancak Tokyo'daki Waseda Üniversitesi'nde geliştirilen bu robot diğer konuşan robotlardan çok farklı. Robot teknolojisi konusunda 30 yıllık bir mazisi olan Waseda Üniversitesi, sentezlenmiş ses yerine android-konuşma şeklini tercih ediyor. Bu amaçla geliştirdikleri bir makine, sıkıştırılmış havanın itmesiyle insan gibi konuşmaya çalışıyor.
Waseda Talker'ın 5. kez üretilen WT-5 adı verilen versiyonu, bilgisayarda bir ikon işaretlendiği zaman harekete geçiyor. Motor yardımı ile çalışan diyaframlar, bir çift plastik tanktan gelen havayı yukarı doğru iterler. Hava, yapay ses tellerinden ve dilin üzerinden geçerek ağızdan ve burundan dışarı çıkar. Aynı anda WT-5'nin, dudakları açılmaya, kapanmaya, gerilmeye ve öne doğru uzamaya başlar. Bu şekilde ağzı canlıymış gibi hareket eder. Bu arada açıkça anlaşılır bir şekilde sırasıyla "a/i/u/e/o" gibi 5 sesli harfi telaffuz eder. Duyulan ses yarı sentezlenmiş, yarı insan sesi gibidir. Bilgisayarda başka bir ikon işaretlendiğinde robot bu sefer de "da/di/du/de/do" şeklinde bir nakarata başlar.
Makinenin yaratıcısı Masaaki Honda , Waseda Üniversitesi'nde bilgisayar uzmanı. Biyomekaniğe duyduğu ilgi, onu kendi kendine konuşan bir robot tasarlamaya doğru yönlendirmiş. Konuşan bir robot üretme arzusunun altında, insanların konuştukları zaman kafalarının içinde neler olup bittiğini merak etmesi yatıyor. Bu çalışmaların ilerde konuşma engelli kişilere konuşma eğitimi verilmesinde yol göstereceğini düşünüyor.
Bu arada WT-5'i bir oyuncak gibi algılamamak gerekiyor. Bu, daha doğal bir şekilde insanlarla konuşan ve iletişim kuran robot üretme projesinin bir parçası. Bu bağlamda WT-5, Japonya'daki Kagawa Üniversitesi'ndeki Hideyuki Sawada'nın konuşan ve şarkı söyleyen robotu gibi makinelerle yarışıyor.
KONUŞAN ROBOT NE İŞE YARAR?
Honda, bu tür araştırmaların konuşanın ses hareketlerini taklit eden ve bu veriyi diğer uçtaki bir ses sentezcisine gönderebilen cep telefonlarının yolunu açacağını düşünüyor. Bu şekilde haberleşmek için gerekli olan bant genişliği azaltılabilir. Bu projeler ayrıca, konuşma yeteneğini yitirmiş insanların yapay ses telleri üzerinde daha iyi bir kontrol sağlamalarına yardımcı olabilir.
KONUŞMA MEKANİZMASININ GİZİ
Honda ve diğerleri, konuşma sırasında beynin konuşmayı sağlayan unsurları nasıl kontrol ettiğini anlamaya çalışıyor. Bu unsurlar dudaklar, dil ve ses telleridir. Bilim adamları insanların bir fikri ifade etmek istedikleri zaman nöral kumandaların, motor korteksteki sinyalleri göreve çağırdığını belirtiyor. Motor korteks istemli kaslarımızı kontrol eder. "Bütün bunların sırayla nasıl çalıştığını ve beyindeki farklı devrelerin birlikte çalışarak konuşma sesini nasıl ürettiğini henüz bilmiyoruz" diye konuşan Kyoto yakınlarındaki ATR İnsan Bilgi Laboratuvarları'ndan biyofiziksel görüntüleme bölümü başkanı Kiyoshi Honda, "Konuşmanın mekanizmasını ve beyindeki devresini yeniden kuruncaya kadar da bunu anlayamayacağız" diyor.
Konuşmanın karmaşık mekanizmasını çözmenin yolu, konuştuğumuz zaman neler olup bittiğini anlamaktan geçiyor. İlk önce, akciğerlerimiz havayı nefes borusundan yukarı iter. Hava ses tellerini geçer. Teller gergin olduğu zaman, hava akımı bunların titreşmesine ve ses çıkarmasına yol açar. "d", "b" ve "v" gibi sesler böyle çıkar. "t", "p" ve "f" gibi ünsüzleri çıkardığımız veya fısıldayarak konuştuğumuz zaman teller gevşer ve havayı rahat bir şekilde ağzımızdan dışarı veririz. Her iki durumda da, farklı ses aralıkları üretmek için dil ve dudaklar da dahil olmak üzere ağzımızın şekli değişir.
İşte bu aşamada devreye robotlar girer. "Waseda Talker üzerinde çalışan bilim adamları konuşma üretiminin fizyolojik sürecinin bir benzerini yaratmak için mekanik bir sistem geliştirdiler. Daha önce böyle bir yaklaşım söz konusu bile değildi" diye konuşan Kiyoshi Honda, "Waseda projesi kendi kuramlarını oluşturacak" diyor.
Her şey Masaaki Honda ve bir grup mühendis, doktor, akustik uzmanının bir araya gelip mekanik konuşma sentezcisi yaratmaya karar vermeleriyle 1998 yılında başladı. İnsan konuşma organlarının MRI görüntülerinden yararlanan grup, yapay ses telleri, dil, dişler, dudaklar ve burun boşluğu gibi unsurları olan, konuşan bir kafa yarattılar. Bütün bu unsurlar, çeşitli derecelerde hareket yeteneğine sahipti. Dil, aynı dudaklar gibi, yumuşak, sentetik bir kauçuktan yapılmıştı ve en esnek parçalardan biriydi. Elektrik motorları ve krank (kol) mekanizmaları, hareketi oluşturmak için konuşmayı sağlayan unsurlara bağlı olan manivelaları, yayları ve telleri çalıştırıyordu.
Bilim ekibi robot ilk algılanabilir sesli sesleri çıkartıncaya kadar her unsurun hareketini tek tek ayarladı. Ancak Honda robottan çıkan ilk seslerin pek de doğal olmadığını kabul etmek zorunda kaldı. Bunun nedeni dudakların gerilip, aşağı/yukarı hareket etmek zorunda kaldığı zaman ileri doğru uzama hareketini yapamamasıydı. Oysa insanlar "oo" ve "w" sesini çıkartırken dudaklarını doğal olarak bu şekle sokabiliyor. Ses telleri aralarından havanın geçebileceği şekilde kauçuk plakalardan yapılmıştı. Bir motor telleri çekerek veya basarak gerilmelerini veya gevşemelerini sağlıyordu. Bunun sonucunda sesli veya sessiz sesler çıkıyordu.
Bu tasarım insan sesinin zenginliğinin yanında çok basit kalıyordu. Fakat yıllar geçtikçe bilim adamları damağı, dili ve dudakları tekrar tekrar tasarlayarak mekanizmayı düzeltmeye çalıştılar. Germe ve gevşetme sürecinde ikinci bir motordan daha yararlanılarak ses telleri üzerindeki kontrolü biraz daha artırdılar. Bu şekilde robotun çıkarttığı sesli harfler biraz daha doğallık kazandı; repertuarlarına "s" ve "m" sesleri katıldı. 2004 yılına gelindiğinde robotlar 50 adet Japonca konuşma sesini çıkartabiliyordu.
İLK SÖZCÜKLER
Bilim ekibi ayrıca robotun, "hassei" (Japonca'da konuşma anlamına gelir) gibi birkaç sözcüğü taklit edebilmesini sağlayan bir sistem geliştirdiler. "Hassei", iki hece arasında bir durak içerir ve ilk hece ünlü, ikinci hece ünsüzdür. Robotlar genel olarak, dış destekle de olsa, insanları kopyalamayı öğrenir. Ses analiz yazılımları, insanların konuştukları sözcükleri perde, sesin azlığı veya çokluğu veya tonal karakteristikleri gibi akustik parçalarına böler.
Bunlar robotun çıkartacağı seslere yol gösterirler. Bu arada analiz yazılımı orijinali ile karşılaştırır. Bilim adamları daha sonra, dudak, dil ve ses telleri üzerindeki kontrole müdahale ederek konuşmaya ince ayar çekerler. Çok sayıda ayardan sonra insan sesine benzer bir ses çıkar. Bunu sağlayan koşullar bir sonraki deneyde aynen kullanılması için kaydedilerek saklanır.
Bütün bunlar sabır gerektiren ve otomasyonu gerekli kılan bir uğraştır. Bu hedefe yönelik olarak bilim adamları yeni bir bilgisayar modeli yaratarak robotun kendi başına bu sesleri çıkartması için çalışıyor. Osaka Üniversitesi'nden robot tasarımcısı Minoru Asada bu konuda görüşlerini şöyle dile getiriyor: "Robotları geliştiren mühendislere tavsiyem, konuşmayı yavaş yavaş öğrenen bebekleri kendilerine örnek olarak almaları."
Reyhan Oksay / Cumhuriyet bilim teknik 988/8 - 25.02.2006