The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Generalization

The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Generalization


Интересная и актуальная для прикладных применений, но почти незамеченная статья, есть код.

О чем речь: все говорят про генерализацию и robustness, но никто ее особо не измеряет, а высказываемые гипотезы противоречат друг другу. Потому авторы

  • сделали несколько тестовых датасетов c явно выраженным out of distribution, на которых можно измерять robustness
  • проверили на них некоторые популярные гипотезы "как увеличить robustness"
  • придумали свой способ улучшения генерализации - DeepAugment.

Датасеты:

Все датасеты моделируют схожее, но явно другое распределение. Почти как в жизни!

Imagenet-R - датасет из 30к изображений из Imagenet классов, но вместо фотографий объектов использовались т.н. renditions - рисунки, скриншоты, рендеры, игрушки, татуировки...

Deepfashion Remixed - DeepFashion, из которого выделили тест-сеты с нетипичными позами, viewpoints, occlusions и т.д.

StreerView StoreFronts - разбили фотки из StreetView по классам - типам зданий (например, аптеки), и сгруппировали по времени и географии.

DeepAugment

Тяжелая аугментация, чем-то похожая на Style Transfer по визуальному эффекту, но более полезная, судя по метрикам. Суть проста: берем картинку и прогоняем через image2image автоенкодер (например, предобученный super resolution), у которого шатаем веса, активации и прочими образами вносим смуту.

Эксперименты

Авторы проверили несколько гипотез на трех новых датасетах + на Imagenet-C. Серебряной пули не нашлось, "универсальные" улучшения иногда могут ухудшать OOD качество (включая даже обширный претрейнинг, который никто не оспаривал).

Авторы утверждают, что тезис о том, что IID метрика превыше всего - херня, а измерять робастность одним число нельзя, это многомерная метрика.

Тем не менее, сочетание DeepAugment + AugMix выглядит отличным решением для генерализации на похожие, но все-таки другие распределения.

Imagenet-R error rates
SVSF error rates
DeepFashion Remixes mAP


Report Page