Görüntü İyileştirme – Sis Giderme

Görüntü İyileştirme – Sis Giderme

Sis, görüntü kalitesini etkileyen bir doğa olayıdır. Sisli ortamda mesafe arttıkça görünürlük önemli ölçüde azalır. Sisli ortamda elde edilen kamera görüntüleri düşük kontrast, düşük doygunluk, renk değişimi veya ek gürültü ile karakterize edilir. Nesne tespiti, nesne takibi vb. temel bilgisayarlı görü (Computer Vision) görevlerini olumsuz yönde etkilemesinden dolayı sisli ortamda kaydedilmiş görüntülerdeki görsel bilginin geri kazanımı (sis giderme – görüntü iyileştirme) bilgisayarlı görü çalışmalarının önemli görevlerinden biri konumundadır.

Problemin çözümü için ilk önce problemin nasıl oluştuğunun matematiksel modelini çıkartmak, problemi daha iyi anlamamıza yardımcı olacaktır.

Atmosferik Dağılım Modeli

Görüntü, ışığın kaynağından çıkıp, nesnenin üzerine çarpıp bir dizi bozunuma (soğurulma, kırınım, yansıma vb.) uğradıktan sonra sensöre (kamera veya insan gözü) gelen kalıntılardan oluşur. Nesneden yansıyan ışığın, havada bahsi geçen bozunumların hangisine ne kadar uğrayacağını kestirmek hayli güçtür. Bu yazının konusu olan sis ise, bu ışığın, sisi oluşturan parçacıklara çarpması ile oluşur. Aşağıdaki görsel, bu bozunumların macerasını anlatmaktadır.

Görsel 1 [1}

Bu süreci, aşağıdaki matematiksel formül ile basit olarak modelleyebiliriz.

Bu formüldeki notasyon şu şekildedir:

  • X: görüntüdeki lokasyon (piksel)
  • I(x): Gözlemlenen sisli görüntü
  • J(x): Orijinal görüntü
  • A: Evrensel atmosferik ışıklandırma
  • t(x): Aktarım matrisi

Aktarım matrisi ise özel bir üstel dağılım fonksiyonudur ve aşağıdaki gibidir.

Bu formüldeki notasyon şu şekildedir:

  • d(x): nesne ile sensör arasındaki uzaklık
  • β: Kırınım katsayısı

Bu modeli anlamaya çalışırsak:

J görüntüsünün sensöre nasıl ulaştığını bulmak istiyoruz. Bunun için kırınıma ve uzaklığa bağlı olarak değişen bir aktarım matrisi ile çarpmamız gerekiyor. Bu bileşen, nesneden seken ışığın sensöre ulaşana kadar olan değişimi gösteriyor.

Denklemin bu kısmı üzerine düşünecek olursak, atmosferde kırınıma uğratacak herhangi bir element bulunmaması durumunda β değeri 0’a yakın olacaktır. Bu durumda ışık, sensörümüze olduğu gibi gelecektir. Ortamdaki partikül miktarı (sis, atmosfer, vb.) ne kadar fazla olursa bu değer 1’e o kadar yakınlaşacaktır.

Bir diğer kısım ise ortamın geri kalan parçalarının, kameraya gelmesi gereken görüntünün üzerine ne kadar bindiği ile alakalıdır. Denklemdeki bir çeşit gürültü bileşeni olarak varsayılabilir.

Model Tipleri

Bu kısımda literatürde önerilen model tiplerinin neler olduğuna, model detaylarına girmeden göz atacağız.

Yukarıdaki açıklamalardan anlaşılacağı üzere, atmosferik ışıklandırma, derinlik, kırınım katsayısı ve aktarım matrisinin tam olarak çıkarımı durumunda, düzgün sis olan ortamda, J görüntüsünü bütün detayları ile birlikte elde etmek mümkündür. Ancak bu parametrelerin kestirimi hayli güçtür.

Bu model üzerinden kestirim yapmak için literatürde AOD-Net isimli [2] model önerilmiştir.

Ancak bu model üzerine yapılan kestirimler, modelin doğru olduğu varsayımına göre kurgulanmıştır. Halbuki atmosferik dağılım modeli, düzgün yayılan sisli görüntüler için oluşturulan bir varsayımdır. Üstelik, atmosferik ışıklandırmanın, görüntünün tamamında aynı olacağı varsayımında bulunulmuştur. Son zamanlarda çıkmış birçok makale (örneğin [3]) bu varsayımların gerçek dünya koşullarında iyi çalışmadığını ortaya koymuştur. Bunun üzerine literatürde birçok farklı geliştirilmiş atmosferik dağılım modeli önerilse de bütün şartları birebir sağlama işlemi hayli güçtür. Bundan dolayı tamamen evrişimsel (Fully Convolutional) sinir ağları, sis giderme literatüründe baskınlık sağlamıştır.

Sis giderme işlemi esasında bir görüntü iyileştirme hedefidir. Bundan dolayı hazırdaki görüntü iyileştirme literatüründen faydalanılabilir. Bundan faydalanıp bir model geliştiren GMAN makalesi [4], bu örneklerin ilklerinden ve en ünlülerindendir.

Sis gidermede veri bulmak hayli zor olabilir. Gözetimli bir şekilde öğretmek için (supervised learning) çiftlenmiş veri (aynı sahnenin hem sisli hem sissiz hali) gerekebilir. Bu problemi hedef alarak GAN tarzında öğrenme yöntemini kullanan [5] gibi makaleler literatürde mevcuttur.

Veri yokluğu, aynı zamanda eğitim gerektirmeyen (zero-shot) modellerin geliştirilmesini de sağlamıştır. Örneğin, Double-DIP makalesi [6}, bilgi kuramından bir varsayımla yola çıkarak, görüntüdeki iki birbirinden farklı (ve bağımsız) bileşenleri ayırmaya çalışmaktadır.

Kullanılan veriler

Yukarıda bahsettiğim gibi, bu konuda gerçek verilere ulaşmak hayli zordur. Bundan dolayı bu alandaki veri setlerinin ilk örnekleri, sentetik olarak üretilen FRIDA[7], D-HAZY[8], RESIDE[9] veri setleridir. Bu veri setleri, derinlik haritası bilinen gerçek görüntülerin üzerine, yukarıda bahsedilen atmosferik dağılım modeli ile bindirilen sis ile oluşturulan veri setleridir.

1

NTIRE veri setleri, özel ekipmanlarla gerçek olarak üretilen veri setleridir. O-Haze[10], I-Haze[11], Dense-Haze[12], NH-Haze[13] ve NH-Haze2 veri setleri ile her yıl yeni veri seti yayınlamaktadırlar.

Bunun dışında çeşitli veri çoğaltma (augmentation) yöntemleri de mevcuttur.

Metrikler

Literatürde, görüntü iyileştirme için kullanılan metriklerin bir çoğu, sis gidermede de geçerlidir. Bunlar:

PSNR (Peak signal-to-noise ratio)

PSNR akla gelen ilk metriklerdendir. PSNR, bir sinyalin maksimum olası gücü ile temsilinin doğruluğunu etkileyen bozucu gürültünün gücü arasındaki oranı gösterir. Başka bir deyişle, yeniden üretilen görüntünün piksel bazında orijinal görüntüden sapmasını hesaplar. PSNR, genellikle dijital sinyal iletiminin kalitesini kontrol etmek için kullanılır.

SSIM (Structural Similarity)

PSNR, piksel bazlı bir ölçü aracıdır. Bu nedenle kolay bir şekilde kandırılabilir. Bir görüntüdeki geri kazandığımız bilgi görüntüler değil, yapılardır. Bundan dolayı SSIM kullanımı önerilmiştir. SSIM, insan görsel sisteminin (HVS renk modeli) kalitesi ve algısı ile ilişkilidir. SSIM, geleneksel hata toplama yöntemlerini kullanmak yerine, görüntü bozulmasını korelasyon kaybı, parlaklık bozulması ve kontrast bozulması olmak üzere üç faktörün bir kombinasyonu olarak modeller.

LPIPS [14]

LPIPS ise modelin makine öğrenmesi modelleri için önemli olan özniteliklerinin çıkarılmasını sağlamak için üretilen bir yöntemdir. Önceden eğitilmiş bir VGG modeli kullanılır. Bu modelden orijinal görüntü ve üretilmiş görüntü geçirerek iki farklı öznitelik grubu çıkarılır ve bu öznitelikler arasındaki uzaklığa bakılır.

Kayıp Fonksiyonları

Herhangi bir model eğitebilmek için gereken en temel gereksinimlerden birisi, uygun bir kayıp fonksiyonu bulmaktır. Bunlar başlıca:

  • Yumuşatılmış L1 fonksiyonu: Piksel bazındaki değerleri birbirine yaklaştırmaya çalışır.
  • MS-SSIM fonksiyonu: Farklı ölçekler için türevlenebilir bir SSIM fonksiyonu oluşturur ve yapıların geri kazanılmasını amaçlar.
  • Perceptual Kayıp Fonksiyonu: Bu fonksiyon LPIPS metriği benzeri bir yapıdadır ve modelin çıkardığı özniteliklerin, bir görüntü tanıma modelininkine yakın olmasını sağlayarak stabil bir eğitim sağlar. Aynı zamanda model çıktısının diğer bilgisayarla görü görevleri için kullanılmasını da kolaylaştırılır.
  • Adversarial Kayıp Fonksiyonu: GAN yapılarında kullanılan bu fonksiyon, genelde üretilen modelin bir üretici (generator) modeli olarak kullanılıp sonuna ayırıcı (discriminator) modeli koyarak sağlanır. Bu fonksiyon görüntüdeki bütünlüğü ve fotorealistikliği arttırmakta kullanılır.

Biz neler yapıyoruz?

DataBoss olarak, yapay zekâ tabanlı bilgisayarlı görü çalışmalarımızın önemli ayaklarından birisini de sis giderme üzerine yaptığımız çalışmalar oluşturmaktadır. Kaliteli bir sis giderme çözümü için:

  • Model geliştirme
  • Özel kayıp fonksiyonları
  • Sentetik veri üretimi
  • Alan uyarlaması

ve bunun gibi bir çok özelleştirilmiş yapay zekâ modeli eğitim ve üretim süreçleri ile mümkün olan en iyi çözümleri sunmaya çalışıyoruz. Akademik nitelikli geniş çaplı araştırma ve geliştirmeler yapıp, bu araştırmaların çıktılarının endüstriyel uygulamalarını, gerçek zamanlı ve yüksek performanslı bir şekilde uyguluyoruz.

Referanslar

[1]H. Fu, W. Liu, H. Chen, and Z. Wang, “An Anisotropic Gaussian Filtering Model for Image De-Hazing,” IEEE Access, vol. 8. Institute of Electrical and Electronics Engineers (IEEE), pp. 175140–175149, 2020. doi: 10.1109/access.2020.3026185.

[2]B. Li, X. Peng, Z. Wang, J. Xu, and D. Feng, “AOD-Net: All-in-One Dehazing Network,” 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, Oct. 2017. doi: 10.1109/iccv.2017.511.

[3] M. Ju, D. Zhang, and X. Wang, “Single image dehazing via an improved atmospheric scattering model,” The Visual Computer, vol. 33, no. 12. Springer Science and Business Media LLC, pp. 1613–1625, Sep. 02, 2016. doi: 10.1007/s00371-016-1305-1.

[4] Z. Liu, B. Xiao, M. Alrabeiah, K. Wang, and J. Chen, “Single Image Dehazing with a Generic Model-Agnostic Convolutional Neural Network,” IEEE Signal Processing Letters, vol. 26, no. 6. Institute of Electrical and Electronics Engineers (IEEE), pp. 833–837, Jun. 2019. doi: 10.1109/lsp.2019.2910403.

[5] A. Dudhane and S. Murala, “CDNet: Single Image De-Hazing Using Unpaired Adversarial Training,” 2019 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, Jan. 2019. doi: 10.1109/wacv.2019.00127.

[6] Gandelsman, Y., Shocher, A., Irani, M.: “double-dip”: Birleştirilmiş derin-görüntü-önceleri aracılığıyla denetimsiz görüntü ayrıştırması. İçinde: CVPR (2019)

[7] J.-P. Tarel, N. Hautiere, L. Caraffa, A. Cord, H. Halmaoui, ve D. Gruyer. Homojen ve heterojen siste görüş geliştirme. IEEE Akıllı Ulaşım Sistemleri Dergisi, 2012.

[8] C. Ancuti, CO Ancuti ve Christophe De Vleeschouwer. D-Hazy: Niceliksel olarak hazneden arındırma algoritmalarını değerlendirmek için bir veri kümesi. IEEE ICIP, 2016.

[9] https://sites.google.com/view/reside-dehaze-datasets/reside-v0

[10] https://data.vision.ee.ethz.ch/cvl/ntire18//o-haze/

[11] https://data.vision.ee.ethz.ch/cvl/ntire18//i-haze/

[12] https://data.vision.ee.ethz.ch/cvl/ntire19//dense-haze/

[13] https://data.vision.ee.ethz.ch/cvl/ntire20/nh-haze/

[14] Algısal Bir Metrik Olarak Derin Özelliklerin Mantıksız Etkinliği
Richard Zhang , Phillip Isola , Alexei A. Efros , Eli Shechtman , Oliver Wang . CVPR’de , 2018.