Harnessing the Universal Geometry of Embeddings

최근 vec2vec이라는 방법이 제안되어 공유 드려요. 정말 굉장하네요…https://arxiv.org/pdf/2505.12540

AI모델들이 각자 학습하고 성능을 내고 있는데, 실제로는 공통화된/보편적인 어떠한 구조를 가지고 있을 것이다.

인공지능 세상에서 서로 다른 모델들이 충분히 똑똑해진다면 세상을 이해하는 방식이 매우 유사할 것이며, 그 공통된 생각의 지도를 vec2vec이라는 기술을 이용하면 다른 모델에서 표현한 방식을 번역할 수 있다.

최신 거대 AI모델을 Vec2Vec이라는 방법을 적용하면 내가 만든 것처럼 자유자재로 활용이 가능해지겠고, 한 모델의 민감한 정보가 다른 쪽에서도 쉽게 드러나기 때문에 보안에 큰 문제도 예측되네요.

1. 연구 배경 및 문제의식

텍스트 임베딩은 검색, 분류, 클러스터링 등 다양한 NLP 작업의 핵심입니다.
서로 다른 모델(예: BERT, T5 등)로 생성한 임베딩은 서로 다른 벡터 공간에 존재해 직접 비교나 변환이 어렵습니다.
기존 연구들은 임베딩 간 변환을 위해 “짝지어진 데이터(같은 문장에 대해 두 모델의 임베딩 쌍)”를 필요로 했지만, 현실에서는 이런 데이터가 없는 경우가 많습니다.

vec2vec라는 새로운 방법을 제안:
- 짝지어진 데이터, 원본 인코더, 사전 정의된 매칭 없이 임베딩을 한 벡터 공간에서 다른 공간으로 변환할 수 있음.
- 임베딩의 **공통된 잠재 구조(universal latent structure)**를 학습해 변환을 수행.
이 방법은 두 임베딩 공간의 기하학적 구조만으로 변환을 가능하게 함.
보안적 시사점: 만약 공격자가 임베딩 벡터만 입수해도, 이를 다른 모델의 공간으로 변환하여 원본 문서의 속성이나 내용을 추론할 수 있음.

모듈형 네트워크 구조:
- 각 임베딩 공간별 입력 어댑터 → 공통 잠재 공간 → 각 임베딩 공간별 출력 어댑터.
- 변환 함수 F는 임베딩을 잠재 공간으로 인코딩하고, 타깃 임베딩 공간으로 디코딩.
학습 방식:
- 적대적 학습(GAN): 변환된 임베딩이 실제 임베딩 분포와 유사하도록 함.
- 재구성 손실: 임베딩을 변환했다가 다시 원래 공간으로 돌리면 원본과 비슷해야 함.
- 사이클 일관성: A→B→A, B→A→B 변환이 원본과 유사하도록.
- 벡터 공간 보존: 임베딩 간 상대적 거리(기하 구조)가 변환 후에도 유지되도록.