최근 연합학습이 주목받고 있다. 연합학습은 로컬에서 생산된 데이터를 로컬 클라이언트에서 저장하고 학습하는 로컬라이징 방식을 뜻한다. 이미 다양한 산업계가 빅데이터를 통해 AI모델을 구축·활용하고 있는바, 기존의 방식과는 차이가 있는 연합학습을 예의주시하는 모양이다.
데이터가 경쟁력인 시대다. 디지털 기술이 발전함에 따라 데이터의 양과 활용이 급증한 이유다. 생산의 측면에서 보면 개별 스마트 디바이스, 사물인터넷, 엣지 컴퓨터, 개별 기관 및 산업 등을 통해 독립적으로 생산된 데이터까지 더해져 그 양이 기하급수적으로 증가하는 추세다. 그리고 이를 기반으로 한 AI기술이 다양한 산업 분야에 도입·적용되면서 데이터의 중요성이 그 어느 때보다도 높다. 그렇다 보니 데이터를 생성, 수집, 학습하는 기술에 대한 수요 또한 늘고 있다.
연합학습의 등장
대규모 데이터는 AI기술의 핵심 재료다. 때문에 데이터를 학습시키는 데이터 사이언스는 머신러닝, 딥러닝, 인공 신경망 기술을 축으로 발전을 거듭하고 있으며, 일반적으로 AI는 대규모 데이터를 세트로 학습하고 인공신경망이 각 데이터를 중앙서버로 보내는 방식으로 구축됐다. 그러나 최근 구글이 차세대 AI학습 방법으로 연합학습을 선택하고, 스마트폰에 적용하면서 이에 대한 관심이 집중되고 있다.
ETRI Insight(2020)를 인용하면 “연합학습은 여러 위치에서 분산 저장된 데이터를 직접 공유하지 않으면서 서로 협력하여 AI모델을 학습할 수 있는 분산형 머신러닝 기법”이다. 이 방법에서는 개별 데이터를 중앙서버로 전달하지 않고, 중앙서버의 AI모델을 클라이언트로 보내 각각의 데이터로 모델을 훈련한다. 그리고 중앙서버는 개별 클라이언트에서 학습된 데이터를 모아 최적의 AI모델을 만든다.
AI모델을 만들기 위해 개별 생산된 데이터를 하나의 클러스터나 중앙서버에 모아 일괄적으로 학습하게 하는 기존의 방식과는 차이가 있다. 비유하자면 학생을 학교에 모아 학습시키는 기존의 방법과는 달리 연합학습은 최적의 학습방법을 각 학생에게 분산·전달하여 이 방법대로 학습하고 훈련하는 것. 즉 방향성의 차이다.
연합학습으로 이미 학습된 데이터를 안전하게 활용할 수 있어
이미 산업계에서는 기존의 데이터 처리 방식의 한계를 넘어선 새로운 기술에 대한 수요가 높았다. 분산형 데이터가 급증하고 있는 현실에서 이들을 클라우드 서버에서 수집·분석하기 위해서는 시간 및 비용 측면에서 많은 제약이 따르기 때문이다. 뿐만 아니라 데이터 이슈에 반드시 동반되는 개인정보보호 문제도 걸림돌이다. 우리나라는 데이터 3법을 통해 개인정보를 보호하겠다는 방침을 내놨지만, 현실적으로는 법의 테두리 안에서 기술을 재단하면 발전에 제약이 따른다는 평이다.
특히 의료 분야가 그렇다. 의료 데이터는 대표적인 분산형 데이터다. 때문에 의료 산업을 혁신하기 위해 관리 주체별로 생성·관리되는 개별 데이터를 수집하는 것부터가 난관이다. 어렵게 데이터를 모으고 난 후에도 각기 다른 포맷의 이질적 데이터를 결합하고 학습시키고 실제로 유용한 데이터로 가공하기까지는 너무 멀다는 것.
이러한 상황을 반영하듯 보건의료 분야는 연학학습 분야를 활발하게 연구하고 있다. 각기 서로 다른 기관에서 보유하고 있는 난치성 질환이나 신종 감염병 데이터와 같은 분산형 데이터를 중앙 서버로 집중시키기 위해 데이터 수집 및 처리의 한계에 부딪혔지만 연합학습으로 이를 극복할 수 있을 것으로 기대된다.
에너지 분야도 연합학습 연구를 통해 데이터 활용 범위를 넓히겠다는 의지를 밝혔다. 전력망에 ICT기술을 접목하여 공급자와 수요자 간에 양방향으로 실시간 정보를 교환하는 차세대 전력 인프라 시스템인 스마트 그리드 연구가 진행되고 있다. 또한 스마트 미터를 통한 소비자 식별 및 행동 파악, 전기수요예측 등도 활발히 진행 중이다.
디지털 시대의 집단지성, 연합학습으로
“다수의 대중이 소수의 엘리트보다 더 나은 해법을 제시한다.”
제임스 서로위키(James Surowiecki)가 「대중의 지혜」에서 주장한 말이다. 또한, 다수의 개체들이 서로 협력함으로써 얻게 된 집단적 능력을 뜻하는 ‘집단지성’을 상징하는 말이기도 하다.
실제로 인류사는 다양성을 가진 집단의 통합된 지성이 개인의 능력 범위를 넘어선 힘을 통해 진화되어 왔다고 해도 과언이 아니다. 그리고 정보화 시대, 인터넷 시대가 도래하면서 파편화된 지식을 공유하고, 협동하면서 새로운 지식을 생산하는 집단지성이 사회에 미치는 영향이 커졌다.
연합학습도 집단지성과 같은 구조로 진행되는 모양새다. 개별 데이터가 갖는 한계를 극복하고 연합학습을 통해 그 가치와 활용도를 높이는 것, 그로 인해 사회의 필요를 채우는 솔루션을 도출하는 과정이 집단지성의 그것과 닮았기 때문이다.
앞으로 연합학습은 디지털 기술의 발전과 함께 급증하는 데이터의 소유권 및 활용 문제를 해결하는 대안으로, 디지털 집단지성으로 확대될 것으로 예상된다.
- 김현정 리포터
- vegastar0707@gmail.com
- 저작권자 2022-09-28 ⓒ ScienceTimes
관련기사