사이언스타임즈 로고

정보통신기술
연합뉴스
2024-11-05

“AI 모델 붕괴 우려는 과장…곧 닥칠 위험 아니다” 美석학 '인공 데이터 되먹임' 공포 반박…"적정 혼합이 해법"

  • 콘텐츠 폰트 사이즈 조절

    글자크기 설정

  • 프린트출력하기
앤드루 미국 스탠퍼드대 교수 ⓒ카카오 제공

AI(인공지능)가 만든 데이터를 AI 학습 자료로 되먹이면 급격한 성능 열화가 일어난다는 '모델 붕괴' 우려가 과장됐다는 진단이 나왔다.

세계 경제 성장을 주도하는 AI 산업에서 모델 붕괴는 업계의 지속가능성을 위협하는 골칫거리 중 하나다. 지금의 AI는 계속 막대한 학습 데이터가 필요한데, 사람이 생산하는 자료로는 수량이 모자라 인공 데이터를 쓸 수밖에 없기 때문이다. 특히 생성 AI 열풍으로 인터넷에 AI가 만든 텍스트와 그림 등이 급증하고 있는 만큼, 오픈 AI의 '챗GPT'처럼 웹 데이터를 쓰는 주요 AI 모델이 인공 자료 되먹임 탓에 곧 성능 저하의 벽에 부딪힐 것이라는 관측이 적잖다.

3일 AI 업계에 따르면 유명 AI 석학인 앤드루 응 미국 스탠퍼드대 교수는 최근 자신이 운영하는 뉴스레터 '더배치'(The Batch)에서 "모델 붕괴는 업계나 학계의 걱정과 달리 단기적으로 닥칠 수 있는 위험이 아니며, 아예 위험이 아닐 수도 있다"고 짚었다. 응 교수는 인공 데이터와 사람이 만든 데이터를 적절히 섞는 기법으로 이 문제를 얼마든지 피할 수 있다고 지적했다.

모델 붕괴 문제를 지적한 연구에서도 훈련 데이터에 인간 생성 데이터를 10%만 집어넣으면 성능 열화가 대폭 줄어드는 것으로 나타났다는 것이다. 그는 "우리에게 필요한 것은 훈련 데이터에 AI 생성 자료가 얼마나 들어가는지를 세심히 추적하는 조처"라며 "인공 데이터를 골라내는 알고리즘이나 AI 콘텐츠에 붙이는 워터마크(식별표) 등의 도움을 통해 이런 작업을 더 쉽게 해낼 수 있을 것"이라고 내다봤다.

인공 데이터 기술이 빨리 발전하는 것도 긍정적 요인이라고 응 교수는 전했다. 이미 AI 데이터 기반의 학습은 '라마3'와 '클로드' 등 유명 생성 AI에 널리 쓰이는 데다 가벼운 고효율 AI나 희귀 언어 번역기 등의 개발에 꼭 필요한 기법이라 앞으로 더 안정적인 기술이 나올 공산이 크다는 얘기다.

모델 붕괴 우려는 작년 봄 영국 옥스퍼드대 등의 연구진이 쓴 논문 '반복(recursion)의 저주: 인공 데이터를 통한 훈련이 모델을 망각에 빠뜨린다'가 화제가 되면서 업계에 널리 퍼졌다. 연구진은 논문에서 AI에 기계 생성 데이터를 계속 되먹이면 결국 모델의 학습이 교란돼 결괏값의 품질과 다양성이 크게 떨어진다는 사실을 입증했다.

연합뉴스
저작권자 2024-11-05 ⓒ ScienceTimes

태그(Tag)

관련기사

목록으로
연재 보러가기 사이언스 타임즈에서만 볼 수 있는
특별한 주제의 이야기들을 확인해보세요!

인기 뉴스 TOP 10

속보 뉴스

ADD : 06130 서울특별시 강남구 테헤란로7길 22, 4~5층(역삼동, 과학기술회관 2관) 한국과학창의재단
TEL : (02)555 - 0701 / 시스템 문의 : (02) 6671 - 9304 / FAX : (02)555 - 2355
정기간행물 등록번호 : 서울아00340 / 등록일 : 2007년 3월 26일 / 발행인 : 정우성 / 편집인 : 윤승재 / 청소년보호책임자 : 윤승재
한국과학창의재단에서 운영하는 모든 사이트의 콘텐츠는 저작권의 보호를 받는 바 무단전재, 복사, 배포 등을 금합니다.

사이언스타임즈는 과학기술진흥기금 및 복권기금의 지원으로 우리나라의 과학기술 발전과 사회적 가치 증진에 기여하고 있습니다.