사이언스타임즈

독감을 비롯해 후천성면역결핍증(HIV) 등의 일부 바이러스에 대해 효과적인 백신을 개발하기 어려운 한 가지 이유는 이 바이러스들이 매우 빠르게 돌연변이를 일으키기 때문이다.

변이를 일으킨 바이러스들은 ‘바이러스 탈출(viral escape)’이라는 과정을 통해 특정 백신에 의해 생성된 항체를 피할 수 있다.

얼마 전부터 예방접종을 시작한 코로나-19도 세계 여러 곳에서 다시 변종이 의심되는 바이러스가 나타났다. 이로 인해 일부에서는 백신 효과에 대해 의문이 제기되고 있기도 하다. 실제 독감 바이러스는 변종이 많아 해마다 새로 나타날 변종을 예상해 백신을 다시 만들어 접종하고 있다.

최근 미국 매사추세츠공대(MIT) 팀이 언어 분석 모델을 기반으로 ‘바이러스 탈출’을 전산적으로 모델링하는 방법을 고안해, 바이러스나 암 백신 등의 제조에 새로운 전환점을 마련할 수 있을지 주목된다.

이 모델은 바이러스 표면 단백질의 어느 부분이 바이러스 탈출을 가능케 하는 돌연변이 확률이 더 높은지를 예측할 수 있어, 이론적으로는 돌연변이 가능성이 낮은 부분을 겨냥해 효과적인 백신을 개발할 수 있다.

미국 매사추세츠공대(MIT) 팀이 ‘바이러스 탈출’을 전산적으로 모델링하는 방법을 고안해 코로나-19을 비롯한 독감과 HIV에 효과적인 백신 개발에 도움을 줄 것으로 기대된다. © MIT News

“바이러스 탈출이 큰 문제”

MIT 수학과 석좌교수이자 컴퓨터 과학 및 인공지능 연구실 전산 • 생물학 그룹장인 보니 버거(Bonnie Berger) 교수는 “바이러스 탈출이 큰 문제”라며, “독감과 HIV로 해마다 수십만 명이 사망하는데, 이는 독감 바이러스 표면 단백질과 HIV 외피 표면 단백질 변이에 따른 ‘바이러스 탈출’로 인해 여러 종의 독감 바이러스에 잘 듣는 보편적인 독감 백신이 없고, HIV 백신도 나오지 않았기 때문”이라고 지적했다.

버거 교수팀은 이런 상황에서 독감과 HIV 및 코로나-19를 일으키는 SARS-CoV-2의 변이에 대항할 수 있는 가능한 백신 표적을 식별해 과학저널 ‘사이언스’(Science) 15일 자에 발표했다.

연구팀은 논문 발간이 승인된 뒤 최근 영국과 남아공에서 나타난 새로운 SARS-CoV-2 변종에도 이 모델을 적용해 분석했다. 이 분석 논문은 아직 전문가 심사가 끝나지 않았으나, SARS-CoV-2가 현재 접종되고 있는 백신을 회피할 수 있는 잠재력이 있는지에 대해 더 조사해야 할 바이러스 유전 서열을 표시했다.

이번 연구에는 버거 교수와 생물공학과 브라이언 브라이슨(Bryan Bryson) 조교수가 논문 시니어 저자로, 컴퓨터 과학과 브라이언 히에(Brian Hie) 박사과정 연구원이 논문 제 1 저자로 참여했다.

이번에 연구 대상이 된 독감과 HIV, 코로나-19 바이러스는 해마다 많은 사망자를 내고 있다. 그림은 동영상 캡처. © AI & Health at MIT

언어 패턴 예측 모델을 분석 모델로 활용

여러 유형의 바이러스들은 서로 다른 속도로 유전적 돌연변이를 획득하며, HIV와 독감 바이러스는 가장 빠르게 돌연변이를 일으키는 부류에 속하는 것으로 알려졌다.

연구팀은 이러한 여러 유형의 바이러스 탈출을 분석하기 위해 자연어 처리(NLP) 분야의 언어 모델 중 한 종류의 컴퓨팅 모델을 택하고, 두 가지 기준을 세워 모델링했다. '돌연변이가 바이러스 탈출을 촉진하려면 항체가 더 이상 결합할 수 없도록 바이러스 표면 단백질 모양을 바꾸도록 해야 한다'라는 기준 하나와 '모양을 바꾼다 해도 단백질 기능은 제대로 작동해야 한다'라는 기준이다.

이 모델은 원래 언어의 패턴, 특히 특정 단어들이 함께 나타나는 빈도를 분석하도록 고안됐다.

한 예로 이 모델은 "Sally ate eggs for ..."와 같은 문장 완성에 사용될 수 있는 단어를 예측할 수 있다. 선택한 단어는 문법적으로 정확하고 올바른 의미를 가져야 하는데, NLP 모델은 이 예에서 ‘아침’ 또는 ‘점심’을 달걀을 먹은 식사 때로 예측할 수 있다는 것이다.

이 경우 '문법'은 특정 서열에 의해 암호화된 단백질이 기능적인지의 여부를 결정하는 '규칙'과 유사하며, 의미론적으로는 단백질이 항체를 회피할 수 있는 새로운 형태를 취할 수 있는지의 여부에 해당한다.

연구팀은 이런 종류의 모델이 유전 염기 서열과 같은 생물학적 정보에도 적용될 수 있을 것이라는 통찰력을 발휘했다.

이번 연구의 핵심은 ‘제약된 의미 변화 검색’에서 의미가 크게 달라지는 문법적 돌연변이를 조사하는 것이라고 연구팀은 밝혔다. 그림은 동영상 캡처. © AI & Health at MIT

쉽게 얻을 수 있는 유전 서열 정보만 필요

히에 연구원은 “바이러스가 인간의 면역체계를 벗어나고자 한다면, 스스로 죽거나 복제할 수 없을 정도의 변이를 일으키고 싶지는 않을 것”이라며, “생존 적합성을 유지하되 인간 면역체계가 감지할 수 없도록 위장하기를 바랄 것”이라고 말했다.

연구팀은 이 과정을 모델링하기 위해 NLP 모델을 훈련시켜 유전자 서열(genetic sequences)에서 발견되는 패턴을 분석했다. 그리고 이를 통해 새로운 기능을 가지고 있으나 여전히 단백질 구조의 생물학적 규칙을 따르는 새로운 유전 서열을 예측할 수 있었다.

이 모델링이 갖는 한 가지 중요한 장점은 단백질 구조보다 훨씬 쉽게 얻을 수 있는 유전 서열 정보만 필요하다는 점이다. 또한 상대적으로 적은 양의 정보로 훈련될 수 있는 장점도 있다. 연구팀은 이번 연구에서 6만 개의 HIV 시퀀스와 4만 5000개의 독감 시퀀스 그리고 4000개의 코로나바이러스 시퀀스를 사용했다.

히에 연구원은 “언어 모델은 이 복잡한 분포 구조를 배울 수 있는데다 유전 서열 변이로부터 기능에 대한 통찰력을 얻을 수 있기 때문에 매우 강력하다”며, “우리는 각 아미노산 위치에 대한 대규모 바이러스 염기 서열 데이터를 가지고 있고, 모델은 훈련 데이터 전반에 걸친 아미노산의 동시 발생과 동시 변이의 속성을 학습한다”고 설명했다.

‘바이러스 탈출’을 차단

연구팀은 일단 모델을 훈련시킨 뒤 이 모델을 이용해 탈출 돌연변이를 생성할 가능성이 있는 코로나바이러스 스파이크 단백질과 HIV 외피 단백질 및 인플루엔자 혈구응집소(HA) 단백질 서열을 예측했다.

독감의 경우 모델은 돌연변이와 바이러스 탈출 가능성이 가장 낮은 서열이 HA 단백질 줄기에 있음 발견했다. 이는 HA 줄기를 표적으로 하는 항체가 모든 독감 균주에 대해 거의 보편적인 보호를 제공할 수 있다는 최근 연구와 일치한다고 연구팀은 밝혔다.

코로나바이러스 모델 분석은 S2 서브유닛이라고 불리는 스파이크 단백질의 일부가 탈출 돌연변이를 생성할 가능성이 가장 낮은 것으로 나타났다.

과학저널 ‘사이언스’ 1월 15일 자에 게재된 논문. © AAAS / Science

암 백신에서 표적 식별 연구 중

현재 SARS-CoV-2 바이러스가 얼마나 빨리 돌연변이를 일으킬지에 대한 의문은 여전히 남아있는 상태다. 따라서 현재 배포되는 코로나-19 백신의 효과가 얼마나 오래 지속될지는 미지수다. 초기 증거에 따르면 SARS-CoV-2 바이러스가 독감 바이러스나 HIV 만큼 빠르게 변이를 일으키지 않을 것으로 보인다는 것.

연구팀은 그럼에도 최근 싱가포르와 남아공 및 말레이시아에서 나타난 새로운 돌연변이를 식별해 내고, 이 바이러스들의 면역 탈출 가능성을 조사해야 한다고 보고 있다. 연구팀은 HIV에 대한 연구에서 외피 단백질의 V1-V2 초가변영역에 이전 발견과 일치하는 많은 가능한 탈출 돌연변이가 있다는 것과 함께, 탈출 가능성이 낮은 시퀀스도 발견했다.

이들은 현재 다른 연구팀과 함께 자신들의 모델을 이용, 인체 면역체계를 자극해 종양을 파괴하는 암 백신에서 가능한 표적 식별을 하기 위한 연구를 진행 중이다.

연구팀은 또 자신들이 모델이 결핵 같은 질병에서 내성을 일으킬 가능성이 적은 소분자 약물을 고안하는 데 활용될 수 있다고 말했다.

브라이슨 교수는 “모델을 활용할 기회는 많고, 필요한 시퀀스 데이터를 쉽게 생성할 수 있어서 앞날이 밝다”고 밝혔다.