Cuma günü Google, metin ve manzaraları alıp bunları robotik hareketlere dönüştürebilen bir görüş-dil-eylem (VLA) modeli olan Robotics Transformer 2’yi (RT2) tanıttı.
Google DeepMind Robotik Lideri Vincent Vanhoucke bir blog yazısında, “Tıpkı lisan modellerinin genel fikirleri ve kavramları öğrenmek için web’deki metinler üzerinde eğitilmesi üzere, RT-2 de robot davranışını bilgilendirmek için web bilgilerinden bilgi aktarıyor. Başka bir deyişle, RT-2 robotça konuşabilir.” sözlerine yer verdi.
Vanhoucke, sohbet robotlarının bir bahis hakkında bilgi verilerek eğitilebileceğini, lakin robotların bir adım daha ileri giderek gerçek dünyada “topraklanması” gerektiğini söylüyor.
Verdiği örnek kırmızı bir elma: “Bir chatbot’a elmanın ne olduğunu basitçe açıklayabilseniz de, bir robotun elmayla ilgili her şeyi bilmesinin yanı sıra onu misal bir objeden (örneğin kırmızı bir toptan) nasıl ayırt edeceğini ve o elmayı nasıl alması gerektiğini de öğrenmesi gerekecektir.”
ROBOTLAR OBJELERİ TAHLİL EDEREK KENDİSİNİ EĞİTEBİLECEK
RT-2, web’deki dataları kullanarak Google’ın RT-1’inden ve öteki modellerden bir adım daha ileri gidiyor. Örneğin, daha evvelki bir modelin bir şeyi atmasını istiyorsanız, onu çöpün ne olduğu ve nasıl kullanılacağı konusunda eğitmeniz gerekirdi.
RT-2 ile, tahminen çöpün ne olduğunu ve nasıl kullanılacağını açıklanmasa da robotun web datalarını kullanarak bu kısmı kendi başına çözebileceği belirtildi.
Öğrendiği bilgileri yeni yapay zeka sayesine harekete geçirebilmesi sağlanacak
RT-2 ile robotlar öğrenebilir ve öğrendikleri bilgileri gelecekteki durumlara uygulayabilir. Bununla birlikte Google, mevcut haliyle sınırlamaların RT-2’nin bir robotun sıfırdan öğrenmesine değil, sırf esasen nasıl yapılacağını bildiği fizikî vazifelerde daha yeterli olmasına yardımcı olabileceği manasına geldiğini belirtiyor.
Yine de bu ileriye hakikat atılmış büyük bir adım ve bize gelecekte nelerin mümkün olabileceğini gösteriyor. Daha fazlası için Google, DeepMind blogunda RT-2’nin nasıl çalıştığına dair detaylara giriyor.