Break로 장면 재구성에 혁명을 일으키다
인간은 본질적으로 복잡한 장면을 구성 요소로 분해하고 다양한 시나리오에서 상상하는 능력을 가지고 있습니다. 다양한 태도와 장소에서 동일한 생물을 쉽게 상상할 수도 있고, 그릇에 기대어 있는 생물을 보여주는 도자기 예술 작품의 스냅샷을 보면 새로운 환경의 동일한 그릇을 쉽게 상상할 수도 있습니다. 그러나 오늘날의 생성 모델은 이러한 성격의 작업을 수행하는 데 도움이 필요합니다. 최근 연구에서는 새로 추가된 전문 텍스트 임베딩을 최적화하거나 단일 아이디어에 대한 많은 그림이 있는 경우 모델 가중치를 미세 조정하여 대규모 텍스트-이미지 모델을 개인화하여 고유한 상황에서 이 개념의 인스턴스를 합성할 수 있도록 제안합니다.
이 연구에서 예루살렘 히브리 대학교, Google Research, Reichman University 및 Tel Aviv University의 연구자들은 텍스트 장면 분해를 위한 새로운 시나리오를 제시합니다. 다양한 유형의 여러 개념을 포함할 수 있는 장면의 단일 이미지가 주어지면 그들의 목표는 다음과 같습니다. 각 아이디어에 대한 특정 텍스트 토큰을 분리하세요. 이를 통해 특정 개념이나 여러 주제의 조합을 강조하는 구두 프롬프트를 통해 혁신적인 그림을 만들 수 있습니다. 사용자 정의 활동에서 배우거나 추출하려는 아이디어는 때때로 명백하기 때문에 잠재적으로 불분명합니다. 이전 작품들은 한 번에 하나의 주제에 초점을 맞추고 다양한 사진을 사용하여 다양한 설정에서 개념을 보여줌으로써 이러한 모호함을 다루었습니다. 그러나 단일 사진 상황으로 전환할 때 문제를 해결하려면 대체 방법이 필요합니다.
그들은 특히 추출하려는 개념에 대한 추가 정보를 추가하기 위해 입력 이미지에 일련의 마스크를 추가할 것을 제안합니다. 이러한 마스크는 사용자가 제공하는 자유 형식 마스크이거나 자동화된 분할 접근 방식(예:)으로 생성된 마스크일 수 있습니다. 두 가지 기본 기술인 TI와 DB를 이 환경에 적용하는 것은 재구성과 편집 가능성의 균형을 나타냅니다. TI는 새로운 컨텍스트에서 아이디어를 적절하게 재구성하지 못하는 반면, DB는 과적합으로 인해 더 많은 컨텍스트 제어가 필요합니다. 본 연구에서 저자는 학습된 개념 정체성 유지와 과적합 방지 사이의 절충안을 성공적으로 해결하는 고유한 사용자 정의 파이프라인을 제안합니다.
그림 1 네 가지 주요 부분으로 구성된 방법론에 대한 개요를 제공합니다. (1) 생성된 아이디어의 다양한 조합을 처리하도록 모델을 교육하기 위해 매번 토큰의 새로운 하위 집합이 샘플링되는 통합 샘플링 접근 방식을 사용합니다. 또한 (2) 과적합을 방지하기 위해 학습률이 높은 최근 삽입된 토큰의 최적화부터 시작하여 학습률이 감소된 두 번째 단계에서 모델 가중치를 계속 적용하는 2단계 학습 방식을 사용합니다. . (3) 위장된 확산 손실을 사용하여 원하는 아이디어를 재구성합니다. 넷째, 우리는 학습된 아이디어 간의 분리를 촉진하기 위해 독특한 교차 주의 손실을 사용합니다.
파이프라인에는 그림 1에 표시된 두 단계가 포함되어 있습니다. 입력 이미지를 다시 작성하기 위해 먼저 특수 텍스트 문자 그룹(핸들이라고 함)을 식별하고 모델 가중치를 고정한 다음 핸들을 최적화합니다. 그들은 두 번째 단계에서 모델 가중치를 미세 조정하는 작업으로 전환하면서 계속해서 핸들을 개선합니다. 그들의 방법은 얽힌 개념 추출을 풀거나 각 핸들이 하나의 대상 개념에만 연결되도록 하는 것을 강력하게 강조합니다. 또한 그들은 개념의 조합을 보여주는 그래픽을 개발하기 위해 각 아이디어에 대해 맞춤화 절차를 독립적으로 수행할 수 없다는 것을 이해합니다. 이러한 발견에 대응하여 우리는 이러한 요구를 충족하고 아이디어 조합 생성을 개선하는 교육 접근 방식인 조합 샘플링을 제공합니다.
그들은 표준 확산 손실의 수정된 변형인 마스크 확산 손실을 활용하여 이를 수행합니다. 이러한 손실로 인해 핸들이 둘 이상의 개념에 연결된 경우 모델은 불이익을 받지 않으며, 이는 각 맞춤 핸들이 의도한 아이디어를 전달할 수 있음을 보장합니다. 그들의 주요 발견은 장면 레이아웃과 상관관계가 있는 것으로 알려진 교차 주의 맵에 손실을 추가로 부과하여 이러한 얽힘을 처벌할 수 있다는 것입니다. 추가 손실로 인해 각 핸들은 대상 개념이 적용되는 영역에만 집중합니다. 그들은 방법론을 벤치마크와 비교하기 위해 작업에 대한 여러 가지 자동 측정을 제공합니다.