banner
뉴스 센터
좋은 품질의 원료, 엄격한 품질 관리

Stanford와 Google 연구원, DoReMi 제안: 언어 모델 학습을 위해 데이터 도메인의 가중치를 재조정하는 AI 알고리즘

Sep 02, 2023

데이터세트는 언어 모델(LM)을 훈련하는 동안 다양한 도메인에서 추출되는 경우가 많습니다. 예를 들어 The Pile이라는 대규모 공개 액세스 가능 데이터 세트에는 온라인 데이터가 24%, Wikipedia가 9%, GitHub가 4% 등이 있습니다. 사전 학습 데이터의 구성은 LM의 성능에 큰 영향을 미칩니다. 다양한 다운스트림 작업에서 탁월한 모델을 생성하려면 각 도메인을 얼마나 많이 포함해야 하는지 명확해야 합니다. 기존 연구는 직관이나 일련의 다운스트림 작업을 사용하여 각 도메인에 대한 도메인 가중치 또는 샘플 확률을 설정합니다. 예를 들어, The Pile은 경험적으로 선택된 도메인 가중치를 사용하는데 이는 최선의 선택이 아닐 수 있습니다.

본 연구에서 Google과 Stanford University의 연구원들은 다운스트림 작업 모음을 기반으로 도메인 가중치를 최적화하는 대신 도메인에 대한 최악의 손실을 최소화하여 모든 도메인에서 잘 수행되는 모델을 제공하는 도메인 가중치를 식별하려고 합니다. 각 도메인에는 고유한 최적 손실(엔트로피라고도 함)이 있다는 점을 고려하면 순진한 최악의 전략은 노이즈가 가장 많은 데이터가 있는 도메인에 더 많은 가중치를 부여합니다. 그러나 다양한 도메인 가중치에 대해 수천 개의 LM을 훈련하고 특정 다운스트림 작업 세트에 과적합할 가능성은 일련의 다운스트림 활동을 기반으로 도메인 가중치를 조정하는 PaLM 및 GLaM과 같은 기존 LM과 관련됩니다.

이는 DRO(Distributionally Robust Optimization)를 사용하여 나중에 수행할 작업을 인식하지 못한 채 도메인 가중치를 조정하는 DoReMi(Domain Reweighting with Minimax Optimization) 기술의 원동력이 됩니다(그림 1). DoReMi는 280M 매개변수를 사용하여 작은 참조 모델을 전통적으로 교육하는 것으로 시작합니다. (참조 모델의 손실과 비교하여) 최악의 초과 손실을 줄이기 위해 작은 분산 저항 언어 모델(DRO-LM)도 도입합니다. 특히, 그들은 강력한 LM보다는 DRO 훈련에 의해 생성된 도메인 가중치를 사용합니다. 강력한 모델을 만드는 대신 그들의 전략은 DRO-LM 프레임워크를 사용하여 도메인 가중치를 최적화합니다. 그런 다음 큰(8B) LM은 이러한 도메인 가중치로 지정된 새 데이터 세트에 대해 교육됩니다.

미니배치에서 인스턴스를 하위 선택하는 대신 학습 목표를 재조정하기 위해 각 도메인의 손실에 따라 도메인 가중치를 동적으로 변경하는 Group DRO의 온라인 학습 기반 최적화 프로그램을 사용합니다. 그런 다음 DoReMi는 DRO 훈련 단계 전체에서 평균된 도메인 가중치를 사용합니다. The Pile 및 GLaM 데이터 세트에서 도메인 가중치를 최적화하기 위해 280M 프록시 및 참조 모델에서 DoReMi를 실행합니다. 30배 이상 큰 8B 매개변수 LM은 DoReMi 도메인 가중치를 사용하여 학습됩니다. 도메인의 가중치가 낮아지더라도 DoReMi는 기본 도메인 가중치에 비해 모든 도메인에 걸쳐 The Pile의 혼란을 낮춥니다.

생산적인 소수 작업에서 DoReMi는 The Pile의 기본 도메인 가중치에 대해 훈련된 기준 모델보다 2.6배 빠르게 다운스트림 기준 정확도에 도달하여 평균 다운스트림 정확도를 6.5% 향상시킵니다. 그들은 The Pile을 사용하여 학습된 향후 LM을 향상시키기 위해 조정된 도메인 가중치를 해제합니다. 그들은 최적화된 도메인 가중치로 훈련된 메인 모델의 크기와 프록시 모델이 변경될 때 DoReMi가 지속적으로 LM 훈련을 향상시킨다는 것을 발견했습니다. DoReMi는 다운스트림 작업에서 도메인 가중치를 조정할 수 있는 GLaM 데이터 세트의 다운스트림 작업 성능에 대한 도메인 가중치 조정보다 성능이 뛰어납니다.

확인해 보세요종이.잊지 말고 가입하세요22,000개가 넘는 ML SubReddit,디스코드 채널, 그리고이메일 뉴스레터 에서는 최신 AI 연구 뉴스, 멋진 AI 프로젝트 등을 공유합니다. 위 기사와 관련하여 질문이 있거나 누락된 내용이 있는 경우 언제든지 이메일을 보내주세요.[email protected]

🚀 AI 도구 클럽에서 100가지 AI 도구를 확인하세요

Aneesh Tickoo는 MarktechPost의 컨설팅 인턴입니다. 그는 현재 빌라이에 있는 인도 공과대학(IIT)에서 데이터 과학 및 인공 지능 학사 학위를 취득하고 있습니다. 그는 머신러닝의 힘을 활용하는 것을 목표로 하는 프로젝트에 대부분의 시간을 보냅니다. 그의 연구 관심 분야는 이미지 처리이며 이를 중심으로 솔루션을 구축하는 데 열정을 쏟고 있습니다. 그는 사람들과 소통하고 흥미로운 프로젝트에 협력하는 것을 좋아합니다.