KAIST, 텍스트·이미지 등 모두 잘 이해하는 멀티모달 AI 개발

박한수 | 기사입력 2025/10/14 [09:41]

KAIST, 텍스트·이미지 등 모두 잘 이해하는 멀티모달 AI 개발

박한수 | 입력 : 2025/10/14 [09:41]

- KAIST, 텍스트·이미지 등 모든 데이터 균형 학습 기술 개발

- 어울리지 않는 데이터 섞어 학습해 AI 편향 문제 해결

- 모델 구조 제약 없이 다양한 데이터에 적용 가능·확장성↑

 

KAIST 연구진이 텍스트와 이미지 등 다양한 형태의 데이터를 동시에 다루는 ‘멀티모달 인공지능(AI)’이 특정 데이터에 치우치지 않고 균형 있게 학습하도록 돕는 새로운 학습 기술을 개발했다. 이번 성과는 데이터 편향 문제를 근본적으로 해결하며, AI 예측의 정확도를 높이는 계기가 될 것으로 기대된다.

 

▲(왼쪽부터) 전기및전자공학부 최소영 석사과정, 황성현 박사과정, 황의종 교수(오른쪽위) (제공=KAIST)

 

KAIST(총장 이광형)는 14일 전기및전자공학부 황의종 교수 연구팀이 모든 데이터 유형을 고르게 활용할 수 있도록 하는 멀티모달 AI 학습 데이터 증강 기술을 개발했다고 밝혔다. 연구 결과는 오는 12월 미국 샌디에이고와 멕시코시티에서 열리는 AI 분야 최고 권위 국제학술대회 ‘NeurIPS(Conference on Neural Information Processing Systems)’에서 발표될 예정이다.

 

멀티모달 AI는 텍스트, 이미지, 영상 등 여러 감각 정보를 동시에 처리해 판단하는 기술이다. 그러나 기존 AI 모델은 여러 데이터를 함께 학습할 때, 시각적 정보 등 특정 유형에 의존하는 경향이 강해 예측의 정밀도가 떨어지는 한계가 있었다.

 

▲ 본 연구에서 제안한 기법을 적용했을 때 모델 예측이 변하는 예시. 특정 데이터 유형에 의존해서 예측을 수행하지 않고, 모든 유형을 활용함으로써 모델의 정확도를 향상시킨다.

 

황의종 교수 연구팀은 이를 해결하기 위해 일부러 서로 어울리지 않는 데이터를 조합해 학습시키는 방법을 도입했다. 이러한 ‘데이터 혼합 학습’은 AI가 어떤 상황에서도 한쪽 정보에만 의존하지 않고, 글과 그림, 소리 등 다양한 정보를 고르게 활용하는 방식을 스스로 익히도록 돕는다.

 

연구팀은 여기에 품질이 낮은 데이터는 보완하고, 어려운 데이터는 강조해 학습하는 가중치 조정 기법을 추가했다. 이를 통해 AI가 복잡한 환경에서도 안정적이고 높은 성능을 유지할 수 있음을 확인했다.

 

황의종 교수는 “AI 성능 향상의 핵심은 모델 구조(알고리즘)보다 데이터를 어떻게 설계하고 학습에 활용하느냐에 있다”며 “이번 연구는 멀티모달 인공지능이 영상이나 텍스트 등 특정 데이터에 치우치지 않고 정보를 균형 있게 처리할 수 있도록, 데이터 자체를 정교하게 설계하는 접근이 효과적임을 보여줬다”고 말했다.

 

이번 연구에는 황성현 박사과정과 최소영 석사과정이 공동 제1저자로 참여했으며, 황의종 교수가 교신저자로 이름을 올렸다.

 

용어 설명:

● 모달리티(modality): 인공지능이 다루는 데이터의 유형을 뜻한다. 예를 들어 영상, 음성, 텍스트가 각각 하나의 모달리티에 해당한다.

● 멀티모달 학습(multimodal learning): 서로 다른 모달리티로 이루어진 데이터를 함께 학습하여, 모델이 더 풍부한 의미와 맥락을 이해할 수 있도록 하는 인공지능 학습 방식이다. 예컨대 영상을 설명하는 텍스트와 음성을 함께 학습하는 경우가 대표적이다.

● 인공지능 정확도(AI accuracy): 인공지능 모델이 주어진 작업을 얼마나 정확하게 수행하는지를 나타내는 지표다. 일반적으로는 모델이 올바르게 예측한 비율로 계산되며, 높은 정확도는 모델의 성능이 우수함을 의미한다. 특히 분류(classification) 작업에서 가장 널리 활용된다.

● 비정렬 데이터(misaligned data): 서로 다른 원본 데이터의 모달리티를 의도적으로 결합해 만든 데이터다. 예를 들어, 강아지 이미지를“고양이”라는 텍스트 설명과 함께 짝지은 경우가 이에 해당한다. 이러한 데이터는 모달리티별 의미가 어긋나 있기 때문에, 모델이 특정 모달리티에 치우쳐 있는지를 진단하고 균형 있게 학습하도록 유도하는 데 활용된다.

● 약한 모달리티 가중치(weak-modality weighting): 신뢰도가 높은 모달리티일수록 모델이 학습 과정에서 크게 의존하는 문제를 보완하기 위한 기법이다. 신뢰도가 낮은 모달리티의 손실 기여도를 높여, 모델이 활용도가 낮은 모달리티까지 효과적으로 학습할 수 있도록 돕는다.

● 어려운 샘플 가중치(hard-sample weighting): 모든 비정렬 데이터가 동일하게 유용한 것은 아니다. 이 기법은 의미가 유사해 모델이 혼동하기 쉬운 “어려운 샘플”에 더 큰 학습 비중을 두어, 모델의 판별 능력을 강화하는 역할을 한다.

 

 

<이메일 : phs88212@naver.com>
인공지능 관련기사목록
광고
광고
광고
광고
광고
광고