Bilgisayar görmesi, resimlerden gerçek dünyayı tanımlayıcı veriler elde eden bir alandır. Bilgisayar görmesinin amacı, görüntüleri almak, işlemek, analiz etmek ve anlamlı veriler elde etmek için metotlar kullanarak insan görüsü yeteneklerini sayısal ortamda taklit etmektir. Görüntü anlama geometri, fizik, istatistik ve öğrenme teorisi ile yapılandırılmış modeller kullanarak görüntü verisinden simgesel bilgi çözülmesi olarak görülebilir.
Bilgisayar görmesi yapay zekâ çalışmalarında özellikle son yıllarda en hızlı gelişmelerin yaşandığı alanların başında gelmektedir. Evrişimli yapay sinir ağları (EYSA) çok katmanlı algılayıcıların (Multi Layer Perceptron – MLP) bir türüdür. Görme merkezindeki hücreler tüm görseli kapsayacak şekilde alt bölgelere ayrılmış, basit hücreler, kenar benzeri özelliklere, karmaşık hücreler ise daha geniş alıcılarla, tüm görsele yoğunlaştığı düşünülmektedir. İleri yönlü bir sinir ağı olan Evrişimli Yapay Sinir Ağları da hayvanların görme merkezinden esinlenilerek ortaya atılmıştır. Buradaki matematiksel evrişim işlemi bir nöronun kendi uyarı alanından uyaranlara verdiği cevap olarak düşünülebilir. İlk EYSA ağı 1988 yılında Yann LeCun tarafından ortaya atılan, 1998’lere kadar iyileştirmeleri devam eden LeNet isimli mimaridir.
Evrişimli yapay sinir ağları, bir veya daha fazla evrişim katmanı, ortaklama katmanı ve bunların ardından standart çok katmanlı bir sinir ağı gibi bir veya daha fazla tamamen bağlı katmanlardan oluşur. EYSA’ların bir yararı aynı sayıda gizli birimle tamamen bağlı ağlardan daha az sayıda eğitime ve daha az parametreye sahip olmalarıdır.
Bir evrişim katmanındaki girdi, m x m x r ‘lik bir resimdir. Burada m değerleri sırasıyla görüntünün yüksekliği ve genişliği, r ise kanalların sayısıdır (örneğin bir RGB görüntüde r=3’ tür). Evrişim katmanı ise n x n x q boyutlarında k adet filtreden oluştur. Filtre için görüntünün boyutundan daha küçük olan n ve r (kanal) değeriyle genellikle aynı seçilen q değeri seçilir. Bu filtreler ile her biri (m-n+1) x (m-n+1) boyutunda k adet birbirine yerel olarak bağlı özellik haritaları üretir. Daha sonra her harita için Şekil 2.3’ de verilen örnek gibi maksimum veya ortalama havuzlama (pooling) ile p x p ‘ lik alt örnekleme işlemi (p değeri, görüntü büyüklüğüne göre genellikle 2-5 arasında) uygulanır.
Toronto Üniversitesi’nde Geoffrey Hinton liderliğindeki araştırma ekibi 2010 yılında sonuçlarını yayımladıkları Derin Evrişimli Yapay Sinir Ağları ile ImageNet Sınıflandırma araştırması ile bu alandaki en çarpıcı ilerlemeyi sağladılar. Araştırmalarının sonucunda geliştirdikleri evrişimli derin yapay sinir ağı ile, ImageNet LSVRC-2010 yarışmasında 1000 farklı sınıfa ayrılmış 1.2 milyon resmi en iyi 5 sonuçta %37,5 ile %17 arasında değişen hata payına ulaştılar.
Bu derece düşük hata payları, o döneme kadar ulaşılabilmiş tüm sonuçlardan daha iyi bir performans sergilemesi ile tüm dünyada bilgisayar görmesi araştırmalarının odağına evrişimli derin yapay sinir ağlarını oturtmayı başardı.
Geliştirdikleri model; 60 milyon parametre ve 650.000 nörondan oluşmaktadır. Modelin mimarisi, bazıları ortaklama katmanlarına sahip 5 evrişim katmanı ve bu evrişim katmanlarını takip eden tam bağımlı 3 yapay sinir ağı katmanından oluşmaktadır. Son katmanında ise 1000 adet farklı sınıfı temsil eden 1000 nörona sahip ve softmax aktivasyon fonksiyonu ile olasılık dağılımını gerçekleştirerek resimleri sınıflandırma işleminin sonucunu veren çıkış katmanı yer almaktadır.
Araştırma modeli, iki adet GTX 580 3 GB GPU’ dan oluşan donanım üzerinde beş ile 6 günlük eğitim süreci sonucunda belirtilen başarım performansına ulaşmıştır. Modelin boyutlarını belirlemede sistemi oluşturan GPU’ da (grafik işleme birimi) yer alan bellek miktarı ve eğitim süresi için tolere edilen zaman miktarı etkili olmuştur.
YSA’ lar ile geliştirilen modellerde donanım ve süre kısıtları yanında önemli bir diğer etmen de sistemi eğitmekte kullanılacak veri setidir. ImageNet veri setinin bir alt seti olan ILSVRC-2010 (ImageNet büyük ölçekli görüntü tanımlama yarışması) veri seti 1000 kategoride 1.2 milyon imajdan oluşmaktadır. Bu imajların 1 milyon adedi eğitim, 50.000 adedi doğrulama, 150.000 adedi ise test amaçlı olarak etiketlenmiş ve ayrılmıştır. Hinton ve ekibi ellerindeki imajlardan oluşan veri setini 256 x 256 piksel en x boy ebatlarına getirecek şekilde ortalayarak düzenlemiş ve işlemleri RGB (kırmızı, yeşil, mavi) formatında renkli olarak gerçekleştirmiştir. Geliştirilen modelin mimarisinde yer alan önemli yeniliklerden birisi de aktivasyon fonksiyonu olarak Relu (Rectified Lineer Unit – Doğrultulmuş Doğrusal Birim) kullanımıdır. Bu sayede hesaplama süresinde önemli oranda tasarruf edilebilmiştir.
Yapılan araştırma çalışmalarının sonucunda elde edilen önemli sonuçlardan biri de EYSA’ lar (Evrişimli Yapay Sinir Ağları) ile kurulan modellerde derinliğin yani evrişim ve gizli katman sayısının başarım oranını arttırmada önemli etkisinin olduğudur. Genel olarak katman sayısı arttıkça modelin doğru tahmin yapma becerisi artmaktadır.
Hinton ve ekibi, geliştirdikleri modelde tam bağımlı yapay sinir ağlarının 2 katmanındaki nöronların her eğitim turunda rastgele bir şekilde %50 olasılıkla işlem dışı kalmalarını sağlayacak bir algoritma geliştirmişler ve bu sayede sistemin ezberleme ihtimalini de oldukça düşürmüşlerdir. İnsansı unutmaya benzer bir etkisi olan nöron eksiltme günümüzde de oldukça yaygın bir şekilde kullanılmaktadır.
Comments