Понимание визуальных особенностей галактик — ключ к расшифровке их истории, внутренней структуры и процессов эволюции. Однако традиционные методы морфологической классификации часто сталкиваются с ограничениями: визуальные оценки субъективны, а количественные параметры (например, индекс Серсика, концентрация или асимметрия) взаимосвязаны и не всегда дают полное представление.
Новое исследование предлагает современный подход — применение машинного зрения, используя связку вариационного автокодировщика (VAE) и метода главных компонент (PCA). Такой метод позволяет выявлять фундаментальные визуальные особенности галактик напрямую из изображений, без заранее заданных критериев.
Используемые данные: галактики из симуляции EAGLE
Работа основана на мок-изображениях галактик в фильтрах g, r, i из гидродинамической космологической симуляции EAGLE.
Использованы данные из снапшота z ≈ 0.1 крупного набора Ref-L0100N1504, охватывающего объём 100 Мпк и содержащего наибольшее число объектов.
Чтобы избежать перекоса в сторону более многочисленных дисковых галактик, исследователи применили аугментацию: изображения эллиптических и промежуточных систем были дополнительно повёрнуты, чтобы вывести их количество на уровень дисковых.
Метод: VAE + PCA для выделения ключевых признаков
Вариационный автокодировщик
VAE обучается сжимать изображение 256×256×3 в набор из 35 латентных признаков.
Эта величина выбрана как баланс между точностью реконструкции и стабильностью латентного пространства (через член KL-дивергенции).
Энкодер последовательно уменьшает разрешение с помощью свёрточных слоёв, а декодер восстанавливает изображение, используя транспонированные свёртки. Параметризация латентных признаков происходит через их средние и дисперсии — что делает репрезентацию плавной и статистически интерпретируемой.

Источник: NASA/JPL/Caltech
Проблема: признаки VAE перепутаны
Сырые латентные признаки VAE сложно интерпретировать:
- один признак часто связан с несколькими структурными свойствами,
- одно структурное свойство отражается в нескольких латентных признаках.
Например, с размером галактики сильно коррелируют ≈ 14–15 латентных признаков, а с индексом Серсика — около 6.
Решение: PCA
PCA преобразует 35 латентных признаков в новый набор ортогональных компонент, каждая из которых отвечает строго за свой вклад в вариацию изображений.
Главные результаты PCA:
- Для описания 99,9 % всей информации изображения требуется всего 10–12 компонент.
- Однако, чтобы получить эти 10–12 «чистых» компонент, VAE должен изначально иметь не менее 35 латентных признаков.
- Каждая главная компонента вносит примерно одинаковый вклад в вариацию (обычно <10 %).
Основные визуальные признаки, которые выделяет модель
PCA выявила, какие физические характеристики галактик наиболее важны для машинного зрения:
1. Размер галактики — главный драйвер реконструкции
Самые значимые компоненты практически всегда связаны с половинным радиусом света. Машинное зрение стремится в первую очередь восстановить общий масштаб объекта.
2. Детали зависят от морфологии
Дисковые галактики:
- сильная корреляция с размером;
- выраженные признаки асимметрии;
- лёгкий вклад угла поворота;
- структурный индекс Серсика проявляется слабо.
Эллиптические (булджевые) галактики:
- размер распределён между первыми тремя компонентами;
- высокая чувствительность к концентрации света;
- осевое отношение более заметно, чем у дисков.
Промежуточные системы:
- одновременно важны концентрация, асимметрия и размер;
- Серсик проявляет три ярких пика важности — модель уделяет особое внимание совместной генерации диска и балджа.
Визуальная карта морфологий: UMAP
UMAP превращает пространство признаков в двумерную карту.
На ней отчётливо видны:
- дисковые системы,
- промежуточные «транзитные» галактики,
- эллиптические,
- а также десятки «нетипичных» объектов, которые нарушают обычные корреляции между структурными параметрами.
Это показывает, что машинное зрение улавливает морфологические различия, которые не всегда отражаются в традиционных измерениях.
Главные выводы исследования
- Около 10–12 визуальных признаков достаточно, чтобы описать почти всю информацию, содержащуюся в изображении галактики.
- Минимум 35 латентных признаков должны быть выучены VAE для корректной работы PCA.
- Размер галактики — первичный элемент, который старается уловить модель.
- Машинное зрение может:
- выявлять морфологические различия, незаметные глазу,
- выделять аномальные и переходные галактики,
- дополнять традиционные структурные показатели.
- Такой подход открывает путь к автоматическому поиску редких объектов, улучшенной классификации и анализу больших обзоров реальных наблюдений.
Источники:
Статья создана по материалам исследований https://arxiv.org/pdf/2509.03640v2