이슈

KAIST, 텍스트·이미지 등 모두 잘 이해하는 멀티모달 AI 개발

박한수

| 기사입력 2025/10/14 [09:41]

이슈

KAIST, 텍스트·이미지 등 모두 잘 이해하는 멀티모달 AI 개발

박한수

| 입력 : 2025/10/14 [09:41]

- KAIST, 텍스트·이미지 등 모든 데이터 균형 학습 기술 개발

- 어울리지 않는 데이터 섞어 학습해 AI 편향 문제 해결

- 모델 구조 제약 없이 다양한 데이터에 적용 가능·확장성↑

KAIST 연구진이 텍스트와 이미지 등 다양한 형태의 데이터를 동시에 다루는 ‘멀티모달 인공지능(AI)’이 특정 데이터에 치우치지 않고 균형 있게 학습하도록 돕는 새로운 학습 기술을 개발했다. 이번 성과는 데이터 편향 문제를 근본적으로 해결하며, AI 예측의 정확도를 높이는 계기가 될 것으로 기대된다.

▲(왼쪽부터) 전기및전자공학부 최소영 석사과정, 황성현 박사과정, 황의종 교수(오른쪽위) (제공=KAIST)

KAIST(총장 이광형)는 14일 전기및전자공학부 황의종 교수 연구팀이 모든 데이터 유형을 고르게 활용할 수 있도록 하는 멀티모달 AI 학습 데이터 증강 기술을 개발했다고 밝혔다. 연구 결과는 오는 12월 미국 샌디에이고와 멕시코시티에서 열리는 AI 분야 최고 권위 국제학술대회 ‘NeurIPS(Conference on Neural Information Processing Systems)’에서 발표될 예정이다.

멀티모달 AI는 텍스트, 이미지, 영상 등 여러 감각 정보를 동시에 처리해 판단하는 기술이다. 그러나 기존 AI 모델은 여러 데이터를 함께 학습할 때, 시각적 정보 등 특정 유형에 의존하는 경향이 강해 예측의 정밀도가 떨어지는 한계가 있었다.

▲ 본 연구에서 제안한 기법을 적용했을 때 모델 예측이 변하는 예시. 특정 데이터 유형에 의존해서 예측을 수행하지 않고, 모든 유형을 활용함으로써 모델의 정확도를 향상시킨다.

황의종 교수 연구팀은 이를 해결하기 위해 일부러 서로 어울리지 않는 데이터를 조합해 학습시키는 방법을 도입했다. 이러한 ‘데이터 혼합 학습’은 AI가 어떤 상황에서도 한쪽 정보에만 의존하지 않고, 글과 그림, 소리 등 다양한 정보를 고르게 활용하는 방식을 스스로 익히도록 돕는다.

연구팀은 여기에 품질이 낮은 데이터는 보완하고, 어려운 데이터는 강조해 학습하는 가중치 조정 기법을 추가했다. 이를 통해 AI가 복잡한 환경에서도 안정적이고 높은 성능을 유지할 수 있음을 확인했다.

황의종 교수는 “AI 성능 향상의 핵심은 모델 구조(알고리즘)보다 데이터를 어떻게 설계하고 학습에 활용하느냐에 있다”며 “이번 연구는 멀티모달 인공지능이 영상이나 텍스트 등 특정 데이터에 치우치지 않고 정보를 균형 있게 처리할 수 있도록, 데이터 자체를 정교하게 설계하는 접근이 효과적임을 보여줬다”고 말했다.

이번 연구에는 황성현 박사과정과 최소영 석사과정이 공동 제1저자로 참여했으며, 황의종 교수가 교신저자로 이름을 올렸다.

용어 설명:

● 모달리티(modality): 인공지능이 다루는 데이터의 유형을 뜻한다. 예를 들어 영상, 음성, 텍스트가 각각 하나의 모달리티에 해당한다.

● 멀티모달 학습(multimodal learning): 서로 다른 모달리티로 이루어진 데이터를 함께 학습하여, 모델이 더 풍부한 의미와 맥락을 이해할 수 있도록 하는 인공지능 학습 방식이다. 예컨대 영상을 설명하는 텍스트와 음성을 함께 학습하는 경우가 대표적이다.

● 인공지능 정확도(AI accuracy): 인공지능 모델이 주어진 작업을 얼마나 정확하게 수행하는지를 나타내는 지표다. 일반적으로는 모델이 올바르게 예측한 비율로 계산되며, 높은 정확도는 모델의 성능이 우수함을 의미한다. 특히 분류(classification) 작업에서 가장 널리 활용된다.

● 비정렬 데이터(misaligned data): 서로 다른 원본 데이터의 모달리티를 의도적으로 결합해 만든 데이터다. 예를 들어, 강아지 이미지를“고양이”라는 텍스트 설명과 함께 짝지은 경우가 이에 해당한다. 이러한 데이터는 모달리티별 의미가 어긋나 있기 때문에, 모델이 특정 모달리티에 치우쳐 있는지를 진단하고 균형 있게 학습하도록 유도하는 데 활용된다.

● 약한 모달리티 가중치(weak-modality weighting): 신뢰도가 높은 모달리티일수록 모델이 학습 과정에서 크게 의존하는 문제를 보완하기 위한 기법이다. 신뢰도가 낮은 모달리티의 손실 기여도를 높여, 모델이 활용도가 낮은 모달리티까지 효과적으로 학습할 수 있도록 돕는다.

● 어려운 샘플 가중치(hard-sample weighting): 모든 비정렬 데이터가 동일하게 유용한 것은 아니다. 이 기법은 의미가 유사해 모델이 혼동하기 쉬운 “어려운 샘플”에 더 큰 학습 비중을 두어, 모델의 판별 능력을 강화하는 역할을 한다.

<이메일 : phs88212@naver.com>

박한수의 다른기사보기

인공지능 관련기사목록

포토뉴스

[indi focus photo] 요즘 공작기계가 어떤가요?

많이 본 기사

'2026 제3회 몽골영화제' 개막작 GV 가져

'영남배' 중한 아마추어 탁구 친선대회 4일 개최, 우승 남방팀 , 2위 항공팀 등

기후부, 재생에너지 중심 전력 공급 체계로 대전환 추진

동아대 태권도학과 품새단·시범단, 전국대회 맹활약 및 국가대표 2명 배출 ‘겹경사’

Every Body Moves… 젠더·장르·장애·기술 넘나드는 춤의 축제

'2026 제3회 몽골영화제' 16일, 부산 영화의전당서 개막

끝없이 펼쳐진 광활한 자연 속 삶의 서사 ‘2026 몽골영화제’ 개최

[삼국지의 칼럼] 도량발호(跳梁跋扈), 당신들의 논리로 당신들이 당했다

한국 독립영화의 산실 ‘독립영화워크숍’ 41주년 기념 특별 행사 개최

인천시, 중앙아시아 의료관광 시장 공략 나서

이슈 많이 본 기사

北, 이틀 연속 미사일 발사…단거리 탄도미사일 동해 낙하

기후부, 재생에너지 중심 전력 공급 체계로 대전환 추진

기후부 장관, 종량제봉투 생산 현장 점검... 공급 안정화 대책 논의

대한민국교육감협의회, “학교예술강사 지원사업, 국가 차원의 안정적 재정 확보해야”

국토부, 민·관 합동 '중동전쟁 기업애로 지원센터'를 통해 건설 업계 애로 접수·지원

최신기사

[기자수첩] 보수 진영 ‘용산 단일화론’, 누굴 위한 전략인가

‘서울 용산’ 6·3 지방선거…보수 단일화 변수론 솔솔

국민의힘 고양정 당협위원장 교체설 고개든 까닭

르노코리아, 임석원 신임 연구소장 임명

《세대의 교차점 프로젝트 : 정만영 X 김유빈》 부산 사투리와 사운드로 세대를 잇다. 낭만시간연구소 ‘세대의 교차점’ 개최

회원약관 ㅣ 개인정보취급방침 ㅣ 회사소개 ㅣ 청소년보호정책 ㅣ 윤리강령 ㅣ 기사제보 ㅣ 보도자료 ㅣ 기사검색

제호:인디포커스 상호명:인디포커스주식회사 / 발행인 / 편집:김은호 / 청소년보호 책임자 :김은호 / 등록번호:서울 아 02791 등록일자:2013년 8월 28일 / 발행일자 2013년 8월 30일 / 소재지:서울시 영등포구 국회대로74길 20, 4층 404호윤리강령 : 인디포커스는 언론으로서의 목적을 시대적 사명으로 인식하면서 국민의 알 권리와 진실된 보도를 위해 부단한 자기혁신과 도덕적 결단으로 언론 본연의 자세를 지켜 나간다. 전화: 02-556-9334. 010,2597,9334
Copyright ⓒ 2013 인디포커스. All rights reserved.