The Many Faces of Robustness: A Critical Analysis of Out-of-Distribution Generalization
Интересная и актуальная для прикладных применений, но почти незамеченная статья, есть код.
О чем речь: все говорят про генерализацию и robustness, но никто ее особо не измеряет, а высказываемые гипотезы противоречат друг другу. Потому авторы
- сделали несколько тестовых датасетов c явно выраженным out of distribution, на которых можно измерять robustness
- проверили на них некоторые популярные гипотезы "как увеличить robustness"
- придумали свой способ улучшения генерализации - DeepAugment.
Датасеты:
Все датасеты моделируют схожее, но явно другое распределение. Почти как в жизни!
Imagenet-R - датасет из 30к изображений из Imagenet классов, но вместо фотографий объектов использовались т.н. renditions - рисунки, скриншоты, рендеры, игрушки, татуировки...
Deepfashion Remixed - DeepFashion, из которого выделили тест-сеты с нетипичными позами, viewpoints, occlusions и т.д.
StreerView StoreFronts - разбили фотки из StreetView по классам - типам зданий (например, аптеки), и сгруппировали по времени и географии.

DeepAugment

Тяжелая аугментация, чем-то похожая на Style Transfer по визуальному эффекту, но более полезная, судя по метрикам. Суть проста: берем картинку и прогоняем через image2image автоенкодер (например, предобученный super resolution), у которого шатаем веса, активации и прочими образами вносим смуту.
Эксперименты
Авторы проверили несколько гипотез на трех новых датасетах + на Imagenet-C. Серебряной пули не нашлось, "универсальные" улучшения иногда могут ухудшать OOD качество (включая даже обширный претрейнинг, который никто не оспаривал).

Авторы утверждают, что тезис о том, что IID метрика превыше всего - херня, а измерять робастность одним число нельзя, это многомерная метрика.
Тем не менее, сочетание DeepAugment + AugMix выглядит отличным решением для генерализации на похожие, но все-таки другие распределения.



