İçerikte Neler Var?

Karşınızda Yapay Zeka Ressam: DALL-E 2

Jüpiterde sarı renkli bir denizde su topu oynayan kravatlı fareler ya da köpekleriyle alışverişe çıkmış ıspanak ve marul çiftine kadar hayal gücünüzle bir şekilde tanımlayabileceğiniz her şeyin illüstrasyonlarını, fotoğraflarını, renderlarını veya tercih ettiğiniz herhangi bir görselini dakikalar içinde oluşturan bir sanatçı düşünün. Evet kulağa saçma ve imkansız gelebilir ama peki ya bu sanatçı bir yapay zeka ise?

DALL-E Nedir?

Open AI; GPT-3 ile, bir komut verildiğinde, tanımladığı şeyin makul bir hikaye versiyonunu ortaya çıkarmaya çalışan bir yapay zeka oluşturmuştu. “İstanbul’da kaybolmuş bir fil hakkında hikaye” dendiğinde, bir tane yazmaya çalışıyor ve düğmeye tekrar basıldığında, farklı bir şekilde tekrar yazıyordu.

Bu denemelerden bazıları gerçekten çok saçma ve bağlamdan uzak olsa da, büyük bir çoğunluğu bir insan tarafından yazılmış hikayelerden neredeyse ayırt edilemez şekildeydi. Ancak, sonuç ne kadar bağlamdan uzak olsa da, bu yapay zeka asla dil bilgisi ve anlam hataları yapmıyordu.

İşte, yapay zeka sanatçısı DALL-E (Dali ve WALL-E’nin bir kombinasyonu) bu konsepti bir adım öteye taşıyor. Metni görüntülere dönüştürmek, yıllardır istikrarlı bir şekilde artan başarı ile yapay zeka çalışmaları yapan OpenAI mühendisleri tarafından geliştirilmiş ve geçen sene başlarında tanıtılmıştı.

OpenAI görsel GPT fikrini şu şekilde özetlemişti:

“GPT-3, dilin, çeşitli metin oluşturma görevlerini gerçekleştirmek için büyük bir sinir ağına talimat vermek için kullanılabileceğini gösterdi. Görsel GPT ise aynı tür sinir ağının yüksek doğruluklu görüntüler oluşturması fikrinden geldi. Bu bulguları, görsel kavramları dil yoluyla manipüle etmenin artık ulaşılabilir olduğunu gösterecek şekilde genişletiyoruz.”

Buna göre algoritma, girilen komutla eşleşen bir görüntü oluşturmak için GPT-3 tarafından sağlanan dil anlayışını yani NLP (Natural Language Processing – Doğal Dil İşleme) teknolojisini kullanıyor.

Aslında demek istedikleri, bu tür bir görüntü oluşturucunun, basitçe ona ne yapacağını söyleyerek, doğal olarak manipüle edilebilmesidir. Elbette, algoritmanın derinlerine inebilir, rengi temsil eden kodları bulabilir ve gerçek bir beynin nöronlarını harekete geçirebilmeniz gibi, onları etkinleştirip değiştirme yollarının kodlarını çözebilirsiniz. Ancak, illüstratör çalışanlarınızdan yeşil değil de mavi bir şey yapmasını istediğinizde bunu yapmaktansa “Yeşil araba” yerine “mavi araba” dersiniz ve anlarlar. Bu, DALL-E’de de tam olarak böyledir, bu komut değişikliklerini anlar ve çok nadiren başarısız olur.

DALL-E 2

Bu gelişmeler bu haliyle bile oldukça heyecan verici iken, geçtiğimiz hafta içerisinde OpenAI daha gelişmiş bir görsel oluşturucu olan DALL-E 2‘yi tanıttı.

DALL-E 2 temelde aynı şeyi yaparak bir metin komutunu şaşırtıcı derecede doğru bir görüntüye dönüştürüyor. Ama birkaç yeni numarası var.

İlk olarak, DALL-E 2’den çıkan görüntüler birkaç kat daha büyük ve daha detaylı. Daha fazla görüntü üretmesine rağmen çok daha hızlı, yani bir kullanıcının beklemek isteyebileceği birkaç saniye içinde daha da fazla varyasyon üretebiliyor.

İkincisi, DALL-E, bir görüntüdeki belirli bir alanın akıllıca değiştirilmesini yani “iç boyama” olarak adlandırdıkları şeyi yapıyordu. Diyelim ki evinizin bir resmi var ama masada kirli bulaşıklar var. Sadece o alanı seçip bunun yerine ne istediğinizi tanımladığınızı düşünün: “boş bir tahta masa” veya “üzerinde tabak olmayan bir masa” gibi. Saniyeler içinde, model size bu komutun birkaç yorumunu gösteriyor ve en iyi görüneni seçebiliyordunuz. DALL-E 2’nin yetenekleri ise çok daha fazla. Değiştirmek istediğiniz alan için yeni varyasyonlar türetebilir. Örneğin, masa durumunda, bir vazo veya dökülen bir ketçap şişesi gibi şeyleri hayal edip DALL-E 2’ye uygulatabilirsiniz. Algoritma, sahnenin geri kalanının farkında olduğu için uygun ışık ve gölgeler gibi şeyleri içerip, doğru malzemeleri seçiyor. Burada “farkında” ifadesi özellikle kullanılıyor. Garip bir şekilde, hiç kimse, yaratıcıları bile, DALL-E’nin bu kavramların dahili olarak nasıl farkında olduğunu bilmiyor.

Üçüncü yeni yetenek ise, yeterince doğru olan “varyasyonlar”. Sisteme örnek bir görüntü verdiğinizde belirli elementlerin analizinden empresyonist yaklaşımlara kadar istediğiniz kadar varyasyon oluşturabiliyor. Hatta ikinci bir görüntü verdiğinizde, her birinin en göze çarpan yönlerini birleştirerek onlarla bir çeşit çapraz birleştirme yapıp yeni bir görsel üretebiliyor.

Her Şey Mi? Hayır!

DALL-E 2’nin hayal edebileceğiniz her şeyi inandırıcı bir şekilde çizmesini engelleyecek herhangi bir teknik sınırlama yok. Ancak OpenAI, derin sahtekarlıkların ve yapay zeka tarafından oluşturulan görüntülerin ve içeriğin diğer yanlış kullanımlarının sunduğu riskin bilincinde. Bu nedenle DALL-E 2 için bazı ek kısıtlamalar da getirdi.

Nefret, taciz, şiddet, kendine zarar verme, açık veya “şok edici” görüntüler, yasa dışı faaliyetler, aldatma (ör. sahte haberler), siyasi aktörler veya durumlar, tıbbi veya hastalıkla ilgili görüntüler eğitim setinden çıkarıldığı için kötü kullanımların çoğu aslında mümkün olmayacak. Yani, DALL-E 2 hayal edeceğiniz birçok şeyi yapabilir, ancak füze saldırısının ne olduğunu bile bilmiyor.

Opinyu

Web Sitesi

1 Yorum

Yapay Zeka ile Restorasyon; Rembrandt’ın Ünlü Eseri ‘Gece Devriyesi’ Hayata Döndü - Opinyu | Entelektüel İçerik Platformu 2 yıl önce

[…] Yapay zekanın gelişimini sürdürmesiyle gelecek dünyası geçmiş dünyasından çok daha farklı şekillenecek. Günümüzde yapay zeka ile restorasyon aşamasına gelmek çok büyük bir başarıdır. Günden güne de gelişen bu yapay zeka düzenine hep birlikte birinci kişi olarak şahit olacağız. Dünyamız, teknoloji sayesinde hep daha ileriye gidecek hep daha iyisini yaşayacaktır. […]

Yorum yapabilmek için oturum açın.