CHOOSE TRuSTED

AND NEVER BE BUSTED

img

pl

casino

Bağıl Özellikler

1 Star2 Stars3 Stars4 Stars5 Stars
translations

Original article https://www.cc.gatech.edu/~parikh/relative.html

Bağıl Özellikler 

 

Marr Ödülü (En İyi Makale Ödülü) Birincisi, ICCV 2011

Devi Parikh ve Kristen Grauman  

"Gökkuşağındaki kim menekşe tonunun bittiği ve turuncu renk tonunun başladığı çizgiyi çizebilir? Belirgin bir şekilde renklerin farkını görüyoruz, ancak biri tam olarak diğerine harmanlanarak diğerine giriyor mu? Yani akıl sağlığı ve delilik ile." 

- Herman Melville, Billy Budd


Soyut


İnsana uygun görsel "nitelikler" çeşitli tanıma görevlerine yarar sağlayabilir. Bununla birlikte, mevcut teknikler bu özellikleri kategorik etiketlerle sınırlar (örneğin, bir kişi 'gülümsüyor' ya da değil, bir sahne 'kuru' ya da değil) ve bu nedenle daha genel anlamsal ilişkileri yakalayamıyor. Göreli özellikleri modellemeyi öneriyoruz. Nesne / sahne kategorilerinin farklı özelliklere göre nasıl ilişkilendiğini gösteren eğitim verileri göz önüne alındığında, özellik başına bir sıralama işlevi öğreniriz. Öğrenilen sıralama fonksiyonları, yeni görüntülerdeki her bir özelliğin göreceli gücünü tahmin eder. Daha sonra öznitelik sıralaması çıktılarının ortak alanı üzerinde üretken bir model oluşturuyoruz ve süpervizörün görünmeyen nesne kategorisini öznitelikler aracılığıyla daha önce görülmemiş nesnelerle ilişkilendirdiği yeni bir sıfır vuruş öğrenme biçimi öneriyoruz (örneğin, 'ayılar zürafalardan daha tüylüdür) '). Ayrıca, önerilen göreceli niteliklerin, pratikte insan yorumu için daha kesin olan yeni görüntüler için daha zengin metinsel açıklamaları nasıl mümkün kıldığını gösteririz. Yüzlerin ve doğal sahnelerin veri kümelerinde yaklaşımı gösteririz ve bu yeni görevler için geleneksel ikili özellik tahminine göre açık avantajlarını gösteririz.


Motivasyon


İkili özellikler kısıtlayıcıdır ve doğal olmayabilir. Yukarıdaki örneklerde, kişi sol üst ve sağ üstteki görüntüyü sırasıyla doğal ve insan yapımı olarak karakterize edebilirken, üst merkezdeki görüntüyü ne olarak tanımlarsınız? Karakterize etmenin tek anlamlı yolu diğer görüntülere göre: soldaki görüntüden daha az doğal, ancak sağdaki görüntüden daha doğal.


öneri

 


 

Bu çalışmada göreceli özellikleri modellemeyi öneriyoruz. Bir özniteliğin varlığını tahmin etmenin aksine, göreceli bir öznitelik, bir görüntüdeki özniteliğin diğer görüntülere göre gücünü gösterir. Daha doğal olmanın yanı sıra, göreceli özellikler daha zengin bir iletişim modu sunarak daha ayrıntılı insan denetimine (ve dolayısıyla potansiyel olarak daha yüksek tanıma doğruluğuna) erişimin yanı sıra yeni görüntülerin daha bilgilendirici açıklamalarını üretme yeteneğine de izin verir.

Her bir özellik için bir sıralama işlevi öğrenen, örnek çiftleri üzerindeki göreli benzerlik kısıtlamaları (veya daha genel olarak bazı örneklerde kısmi bir sıralama) verilen bir yaklaşım geliştiriyoruz. Öğrenilen sıralama işlevi, görüntülerdeki öznitelik varlığının göreceli gücünü gösteren görüntüler için gerçek değerli bir sıra tahmin edebilir.

Göreceli nitelik tahminlerinden yararlanan sıfır vuruşlu öğrenme ve görüntü tanımlamanın yeni biçimlerini sunuyoruz.


Yaklaşmak


Göreli özellikleri öğrenme: Her göreceli özellik, aşağıda gösterildiği gibi karşılaştırmalı denetim verildiğinde formülasyonu sıralamayı öğrenerek öğrenilir:

Eğitim noktalarında (1-6) istenen sıralamayı uygulayan geniş marjlı sıralama işlevini (sağda) ve yalnızca iki sınıfı (+ ve -) ayıran ve bunu yapan geniş marjlı bir ikili sınıflayıcıyı (sol) öğrenme arasındaki ayrım noktalarda istenen bir sırayı korumak zorunda değilsiniz aşağıda gösterilmiştir:

Yeni sıfır vuruşlu öğrenme: Aşağıdaki kurulumu inceliyoruz

Toplam toplam kategori: Görülen kategoriler (ilgili görseller mevcuttur) + Görünmeyen kategoriler (bu kategoriler için hiçbir görsel yok)

Görülen kategoriler, öznitelikler yoluyla birbirine göre tanımlanır (tüm kategori çiftlerinin tüm öznitelikler için ilişkili olması gerekmez)

Görünmeyen kategoriler, (bir alt küme) öznitelikleri açısından görülen kategorilere (bir alt küme) göre tanımlanır.

İlk olarak, göreli kategorilerde sağlanan denetimi kullanarak bir dizi göreceli özellik eğitiyoruz. Bu nitelikler harici verilerden de önceden eğitilebilir. Daha sonra, görülen kategorilerdeki görüntülere ilişkin göreceli özelliklerin yanıtlarını kullanarak, her görülen kategori için üretken bir model (Gauss) oluştururuz. Daha sonra, görülmeyen kategorilere ilişkin göreceli açıklamalarını kullanarak görünmeyen bakirelerin üretken modellerinin parametrelerini çıkarıyoruz. Bunun için kullandığımız basit yaklaşımın bir görselleştirmesi aşağıda gösterilmiştir:

Kategoriye maksimum olasılıkla bir test görüntüsü atanır.

Görüntülerin göreli metinsel açıklamalarını otomatik olarak oluşturma: Açıklanacak bir görüntü verildiğinde, I üzerinde öğrenilen tüm sıralama işlevlerini değerlendiririz. Her öznitelik için, I'nin her iki tarafında yatan iki referans görüntüsünü belirleriz ve çok uzak veya çok yakın değildir Görüntü I daha sonra aşağıda gösterildiği gibi bu iki referans görüntüye göre açıklanmaktadır:

Yukarıda görüldüğü gibi, bir görüntüyü diğer görüntülere göre tarif etmenin yanı sıra, yaklaşımımız diğer kategorilere göre bir görüntüyü de tanımlayarak tamamen metinsel bir tanımla sonuçlanabilir. Açıkça göreceli açıklamalar, geleneksel ikili açıklamadan daha kesin ve bilgilendiricidir.


Deneyler ve Sonuçlar


İki veri kümesi üzerinde deneyler yapıyoruz:

(1) 8 kategoriden 2688 görüntü içeren Açık Hava Sahnesi Tanıma (OSR): sahil C, orman F, H otoyolu, şehir içi I, dağ M, açık ülke O, sokak S ve yüksek bina T. görüntüleri temsil etmek.

(2) 8 kategoriden 772 görüntü içeren Halk Figürleri Yüz Veritabanı'nın (PubFig) bir alt kümesi: Alex Rodriguez A, Clive Owen C, Hugh Laurie H, Jared Leto J, Miley Cyrus M, Scarlett Johansson S, Viggo Mortensen V ve Zac Efron Z. Görüntüleri temsil etmek için sıralı gist ve ve renk özelliklerini kullanıyoruz.

Her veri kümesi için kullanılan özniteliklerin listesi, ikili ve göreli öznitelik ek açıklamaları ile birlikte aşağıda gösterilmiştir:

Sıfır vuruşlu öğrenme:

Önerilen yaklaşımımızı iki temel çizgiyle karşılaştırıyoruz. Birincisi, Puan Tabanlı Göreli Özellikler (SRA). Bu taban çizgisi yaklaşımımızla aynıdır, ancak bir sıralama işlevinin puanları yerine ikili bir sınıflandırıcının (ikili nitelikler) puanlarını kullanır. Bu taban çizgisi, göreli nitelikleri en iyi şekilde modellemek için bir sıralama işlevine duyulan ihtiyacın değerlendirilmesine yardımcı olur. İkinci temelimiz, Lampert ve ark. Tarafından sunulan Doğrudan Özellik Tahmini (DAP) modelidir. Bu taban çizgisi, kategoriklerin aksine, niteliklerin göreceli tedavisinin faydalarının değerlendirilmesine yardımcı olur. Bu yaklaşımları değişen sayıda görünmeyen kategori, nitelikleri eğitmek için kullanılan veri miktarları, görünmeyen kategorileri tanımlamak için kullanılan değişken nitelikleri ve görünmeyen kategorilerin açıklamasında değişen 'gevşeklik düzeyleri' için değerlendiriyoruz. Deney düzeneğinin ayrıntıları makalemizde bulunabilir. Sonuçlar aşağıda gösterilmiştir:

Otomatik oluşturulan resim açıklamaları:

İkili meslektaşlarına ilişkin göreceli görüntü açıklamalarımızın kalitesini değerlendirmek için bir insan çalışması yaptık. Yaklaşımımızı ve temel ikili özellikleri kullanarak bir görüntünün açıklamasını oluşturduk. Konulara bu tanımla birlikte üç görüntü sunduk. Üç görüntüden biri açıklanan görüntüdür. Deneklerin görevi, üç resmi, hangisinin daha çok tanımlandığını düşündüklerine göre sıralamaktı. Tanım ne kadar kesin olursa, öznelerin doğru görüntüyü tanımlama şansı o kadar artar. Konulara sunulan bir görevin bir örneği aşağıda gösterilmiştir:

Çalışmanın sonuçları aşağıda gösterilmiştir. Denekler, ikili özniteliklere kıyasla, önerilen göreli özniteliklerimizi kullanarak doğru görüntüyü daha doğru bir şekilde tanımlayabilir.

Görüntülerin örnek ikili açıklamaları ve kategorilere ilişkin açıklamalar aşağıda gösterilmiştir:

 

görüntü İkili açıklamalar Göreli açıklamalar
doğal değil
açık değil
perspektif
yüksek binadan daha doğal, ormandan daha az doğal
yüksek binadan daha açık, maliyetten daha az açık
yüksek binadan daha perspektif
doğal değil
açık değil
perspektif
sinsellikten daha doğal, otoyoldan daha az doğal
caddeden daha açık, maliyetten daha az açık
otoyoldan daha fazla perspektif, şehrin içinden daha az perspektif
doğal
açık
perspektif
yüksek binadan daha doğal, dağdan daha az doğal
dağdan daha açık
açık ülkeden daha az perspektif
Beyaz
gülümsemiyor
Görünür Alın
Alex Rodriguez'den daha beyaz
JaredLeto'dan daha fazla gülümsüyor, Zac Efron'dan daha az gülümsüyor
Jared Leto'dan daha Görünür Alın, Miley Cyrus'tan daha az Görünür Alın
Beyaz
gülümsemiyor
Görünmez Alın
Alex Rodriguez'den daha beyaz
JaredLeto'dan daha fazla gülümsüyor, Zac Efron'dan daha az gülümsüyor
Jared Leto'dan daha Görünür Alın, Miley Cyrus'tan daha az Görünür Alın
genç değil
Gür kaşları
Yuvarlak yüz
Clive Owen'dan daha genç, Scarlett'den daha genç
ZacEfron'dan daha gür kaşlar, Alex Rodriguez'den daha az gür kaşlar
Clive Owen'dan daha fazla RoundFace, ZacEfron'dan daha az Round Face

Veri


 

Makalemizde kullanılan iki veri kümesi için öğrenilmiş göreceli öznitelikleri ve tahminlerini sunuyoruz: Açık Hava Sahnesi Tanıma (OSR) ve Genel Figürler Yüz Veritabanı'nın (PubFig) bir alt kümesi.

BENİOKU

İndir (v2)

Göreli Yüz Nitelikleri Veri Kümesi. Halka Açık Şekiller Yüz Veritabanı'ndan (PubFig) 60 kategorideki 29 göreli öznitelik için ek açıklamalar içerir.


kod


Olivier Chappelle'nin RankSVM uygulamasını, benzerlik kısıtlamalarına sahip göreceli nitelikler geliştirmek üzere değiştirdik. Değiştirilmiş kodumuzu burada bulabilirsiniz.

 

Kodumuzu kullanırsanız, lütfen aşağıdaki makaleyi belirtin:

  1. Parikh ve K. Grauman

Bağıl Özellikler

Uluslararası Bilgisayarlı Görme Konferansı (ICCV), 2011.


Demos


Göreli niteliklerin çeşitli uygulamalarının demoları burada bulunabilir. Bu uygulamaların bir açıklaması buradaki makalelerde bulunabilir.


Yayınlar


D. Parikh and K. Grauman

Relative Attributes

International Conference on Computer Vision (ICCV), 2011. (Oral)

Marr Prize (Best Paper Award) Winner

[slides] [talk (video)] [poster] [relative descriptions demo]

 

Following are our other papers that use relative attributes:

 

A. Biswas and D. Parikh

Simultaneous Active Learning of Classifiers & Attributes via Relative Feedback

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013

[project page and data] [poster] [demo]

 

A. Parkash and D. Parikh

Attributes for Classifier Feedback

European Conference on Computer Vision (ECCV), 2012 (Oral)

[slides] [talk (video)] [project page and data] [demo]

 

A. Kovashka, D. Parikh and K. Grauman
WhittleSearch: Image Search with Relative Attribute Feedback
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2012
[project page] [poster] [demo]

 

D. Parikh, A. Kovashka, A. Parkash and K. Grauman
Relative Attributes for Enhanced Human-Machine Communication (Invited paper)
AAAI Conference on Artificial Intelligence (AAAI), 2012 (Oral)