Özgünlük, Dalle-2 & Midjourney ve Yapay Zeka Tarafından Oluşturulan Görüntüler ve Sanatın Büyüleyiciliği
Yayınlanan: 2022-08-04Bu makale, Dalle-2 ve Midjourney gibi platformların arkasındaki teknoloji ve içerik oluşturucuların neden Open AI potansiyel olarak size para ödemesi gerektiği hakkında - sizden ücret almıyor…
İnternette giderek daha fazla insan Dalle-2 ve Open AI'ı bir aldatmaca olarak adlandırıyor. Bunun nedeni, Dalle-2'nin artık birdenbire, platformu beta limitinin ötesinde kullanırsanız kredi satın almanız gereken para kazandıran bir hizmete dönüşmesidir.
DALLE 2, AI tarafından oluşturulan içeriğe erişmenizi sağlayan ve onu ticari amaçlarla kullanabileceğinizi iddia eden birçok yeni platformdan sadece biridir. Diğer platformlar arasında Midjourney, Jasper Art, Nightcafe, Starry AI ve Craiyon bulunur. Bu blog yazısında Dalle 2'ye odaklanacağız, ancak yasal zorluklar ve sorunlar söz konusu olduğunda bunlar neredeyse aynı.
Kanaatimizce dolandırıcılık oldukça sert bir ifadedir, ancak diğer kişilerin oluşturduğu verileri (fotoğraflar, videolar, açıklamalar, resimlerdeki kişiler vb.) kullanıp sonra aynı kişilere geri satmaya başlamakta bariz bir sorun vardır.
Bu sorun çoğumuz tarafından gözden kaçırılmış olabilir, çünkü yeni teknolojiden çok etkileniyoruz. Tamamen anlaşılabilir bir şey.
Ancak günün sonunda DALL-E 2 sadece gelişmiş bir kalıp tanıma makinesi olmasına rağmen çıktısı nötr değil ve kalıplar temiz havadan gelmiyor.
Sorulacak çok sayıda yasal sorunun olduğu tonlarca veriye dayanıyorlar. Oluşturduğunuz görüntülerin potansiyel kullanıcısı olarak sizin için önemli olan sorular.
DALE-2 tarafından oluşturulan resim
AI modelleri insanlarla karşılaştırılamaz
DALL-E 2 görüntülerini ticari amaçlarla kullanmayı düşünmeye başlamadan önce, Engadget'taki bu harika makaleyi okuyarak başlamalısınız.
Engadget makalesinde çok önemli bir şeye daha işaret ediyorlar. Yani DALL-E 2 ve OpenAI'nin, kullanıcıların DALL-E kullanarak oluşturdukları görüntüleri ticarileştirme hakkından vazgeçmemeleri. Temel olarak, daha sonra ticari olarak başkalarına satacakları görüntüler oluşturabileceğiniz anlamına gelir.
Bu, niyetlerin bazen kullanılan analojiden çok farklı olduğunu gösterir, burada DALLE-2 destekçileri onu yerleşik bir yazarın eserini okuyan bir öğrenciyle karşılaştırır. Bu örnekte öğrenci, yazarın üsluplarını ve kalıplarını öğrenebilir ve daha sonra bunları başka bağlamlarda uygulanabilir bulabilir ve orada yeniden kullanabilir.
Ancak bu, yeni yaratıcı işler yaratmak için yaratıcı hafızayı kullanan bir insan beyni ile ilgili değil. Bu, bir örüntü tanıma makinesinin yeniden kullanılması ve bazı durumlarda daha sonra ticari olarak kullanılan ve hatta satılan görüntülerdeki eğitim verilerini yeniden üretmesiyle ilgilidir. Sadece iki farklı dünya – hem mecazi olarak hem de kelimenin tam anlamıyla.
Gerçek dünyadan gerçek fotoğraf
JumpStory'nin Orijinallik Sözü
Bu makale, bu yeni AI görüntü oluşturma teknolojisinin nasıl çalıştığını daha derin bir düzeyde anlamak isteyenler içindir. Ancak başlamadan önce, JumpStory'nin neden şu anda benzer bir makine üretmediğine dair birkaç kelime.
Tabii ki, bu soruyu defalarca sorduk. En azından şirketimizde zaten AI kullandığımızı ve milyonlarca orijinal görüntüye erişimimiz olduğunu düşünürsek.
Ancak bu bizim için teknolojik bir tartışma değil, etik bir tartışma. Orijinallik Sözümüzle sonuçlanan bir tartışma.
Yapay zeka tarafından üretilen görüntülerin istisnadan ziyade norm haline geldiği bir geleceğe temelde karşıyız. Bize eski kafalı deyin ama biz GERÇEK dünyanın güzel olduğuna inanıyoruz.
Fotoğraflarımızın ve videolarımızın gerçek insanları farklı şekil ve boyutlarda tasvir etmesinden gurur duyuyoruz. Yapay zeka kullanımına karşı değiliz, ancak sahte insanlar veya gerçekler oluşturmak için kullanılması gerektiğini düşünmüyoruz.
Sentetik medya ve DALL-E 2 gibi teknolojiler yüzeyde büyüleyici olabilir, ancak aynı zamanda gerçek bir risk de oluştururlar. İnsanlar arasındaki güven için temel bir tehdit oluşturacak olan gerçek ve sahte arasındaki çizgiyi bulanıklaştırma riski taşırlar.
Bu nedenle JumpStory, sahte görüntüler oluşturmak için yapay zeka kullanmaz, bunun yerine hangi görüntülerin orijinal, orijinal ve elbette ticari amaçlarla yasal olduğunu belirlemek için AI kullanır.

Bunlar, hizmetimizi kullanırken bulduğunuz görüntülerdir ve yaklaşımımıza 'Otantik Zeka' adını verdik.
AI görüntülerinin nasıl oluşturulduğunu anlama
Şimdilik JumpStory ve DALL-E 2 ile ilgili yasal sorunlar hakkında bu kadar yeter. DALLE-2, Imagen, Crayion (eski adıyla Dall-E Mini), Midjourney vb. platformlarda AI görüntülerinin nasıl üretildiğine bakalım… Şu anda en çok konuşulan örnek olarak DALLE-2'yi kullanmak.
DALE-2 ile başlamak için farklı türde görevler gerçekleştirilebilir, ancak biz bu blog yazısında görüntü oluşturma görevine odaklanacağız.
Nasıl çalıştığı, bir metin kodlayıcıya bir metin isteminin girilmesidir. Bu kodlayıcı, bilgi istemini bir temsil alanına eşlemek için eğitilmiştir. Daha sonra, bir önceki model olarak adlandırılan bir model, kodlanmış metni, metin kodlama isteminin anlamsal bilgisini yakalayan karşılık gelen bir görüntü kodlamasına eşler.
(Bu zaten biraz geeky olmaya başladıysa, çok üzgünüm ama daha da kötüleşecek)
Görüntü kodlayıcı için son adım, kodlayıcının aldığı anlamsal bilgiyi görselleştiren bir görüntü oluşturmaktır. Bu, Open AI gibi makinelerin temelidir.
Metin ve görseller arasındaki ilişki
DALL-E 2 ve benzeri teknolojilere genellikle metinden görüntüye oluşturucular denir. Bunun nedeni, bir metin girişi alma ve bir görüntü çıktısı verme yetenekleridir.
Size bir örnek vermek gerekirse, bu “Andy Warhol tarzında ata binen bir astronot:
kaynak: DALE-2
Burada olanlar, Open AI'nın CLIP adlı modeline dayanmaktadır. CLIP, “Karşıtlıklı Dil-Görüntü Ön Eğitimi”nin kısaltmasıdır ve milyonlarca görüntü ve altyazı üzerinde eğitilmiş çok karmaşık bir modeldir.
CLIP'in özellikle iyi olduğu şey, belirli bir metnin belirli bir görüntüyle ne kadar ilişkili olduğunu anlamaktır. Buradaki anahtar, resim yazısı değil, belirli bir resim yazısının belirli bir resimle ne kadar ilişkili olduğudur.
Bu tür bir teknolojiye 'karşıtlık' adı verilir ve CLIP'in yapabildiği şey, doğal dilden anlambilim öğrenmektir. CLIP'in bunu öğrenme şekli, amacın (şimdi teknolojik belgelerden alıntı yaparak) bir süreç yoluyla öğrenmesidir: "eşzamanlı olarak N doğru kodlanmış görüntü/başlık çiftleri arasındaki kosinüs benzerliğini maksimize etmek ve N 2 – N yanlış kodlanmış görüntü arasındaki kosinüs benzerliğini en aza indirmek /başlık çiftleri."
görüntüleri oluşturma
Yukarıda açıklandığı gibi, CLIP modeli, görüntülerin ve metinlerin kodlamalarının nasıl ilişkili olduğunu belirleyebileceği bir temsil alanı öğrenir.
Bir sonraki görev, bu alanı görüntü oluşturmak için kullanmaktır. Bu amaçla Open AI, CLIP'den gelen girdiyi kullanabilen ve - bir difüzyon modeli kullanarak - görüntü oluşturma işlemini gerçekleştirebilen GLIDE adlı başka bir model geliştirmiştir.
Difüzyon modelinin ne olduğunu kısaca açıklamak gerekirse, temelde kademeli bir gürültü sürecini tersine çevirerek veri üretmeyi öğrenen bir modeldir. Bunun artık çok teknik hale gelmesinden dolayı özür dilerim, bu nedenle Open AI belgelerinde bulunan bir açıklamayı alıntılamak gerekirse:
Gürültü süreci, görüntüyü bozmak için kademeli olarak gürültü ekleyen ve sonunda (asimptotik olarak) saf Gauss gürültüsüne neden olan parametreli bir Markov zinciri olarak görülüyor. Difüzyon Modeli, bu süreci tersine çevirmek için bir dizi zaman aralığında gürültüyü kademeli olarak ortadan kaldırarak bu zincir boyunca geriye doğru gitmeyi öğrenir.”
Teknolojinin derinliklerine inmek istiyorsanız, Ryan O'Connor'ın bu mükemmel makalesini okumanızı öneririz.