도청 AI 방지를 위한 AI "Neural Voice Camouflage" 등장

PC나 스마트폰이라고 하는 컴퓨팅 디바이스에 "스파이웨어"를 잠재우는 것으로 유저의 대화를 도청하거나, Amazon의 스마트 스피커인 Echo를 도청기로 개조할 수 있는 등 스마트 디바이스의 보급에 의해 도청의 위기는 보다 가까워지고 있다.

그런 도청으로부터 사용자를 보호하기 위한 AI 기술이 "Neural Voice Camouflage"로 백그라운드에서 맞춤형 오디오 노이즈를 생성함으로써, 녹음된 음성을 청취할 수 없게 한다.

 


"Neural Voice Camouflage"는, AI를 속이는 공격인 "adversarial attacks(적대적 공격)"을 이용한 AI 테크놀로지로 기계학습을 이용해 AI가 다른 무언가와 헷갈리게 음성을 미세 조정한다. 적대적 공격에 대해 학술지 Science는 "AI를 이용해 다른 AI를 속이는 격"이라고 설명하고 있다.

"AI를 이용해 다른 AI를 속인다"고 표현하면 쉬워질 수 있지만, 이 과정은 생각보다 쉽지 않다. 적대적 공격을 이용한 음성처리의 경우 음성 데이터 전체를 처리해야 하기 때문에, 실시간 음성처리는 어렵다.

그러나, Neural Voice Camouflage에서는 미래를 효과적으로 예측하기 위해 뇌로 촉발된 기계 학습 시스템인 뉴럴 네트워크를 이용. 연구팀은 Neural Voice Camouflage에서 사용하는 뉴럴 네트워크를 몇 시간에 걸친 음성 데이터를 이용해 학습시킴으로써 항상 2초 분량의 음성 데이터를 처리하면서 뒤따를 가능성이 높은 음성에 대해 어떻게 노이즈를 가할지 추측할 수 있게 되었다.

예를 들어, 누군가가 "연회를 즐겨주세요"라고 한다면, 다음에 어떤 말이 나올지 정확하게 예측할 수는 없다. 그러나 화자의 목소리의 특징이나, 지금 말한 것을 고려해 그 후에 계속될 문구를 들을 수 없게 되는 음성을 생성하는 것은 가능하다는 것. 또한 Neural Voice Camouflage가 생성하는 소리는 인간에게 백그라운드 노이즈처럼 들리기 때문에, 대화를 저해하지 않고 도청에 이용되는 AI만을 방해할 수 있다고 한다.

 


개발팀은 Neural Voice Camouflage의 정확도를 검증하기 위해, 자동음성인식(ASR) 시스템 중 하나를 이용. 음성을 Neural Voice Camouflage로 처리했더니, ASR의 단어 인증 정확도를 88.7%에서 19.8%까지 낮추는 데 성공. 한편, 음성에 화이트 노이즈를 가했을 경우는, ASR의 단어 인증 정밀도는 87.2%, Neural Voice Camouflage와 같은 예측 기능이 없는 적대적 공격을 이용한 노이즈 처리의 경우는 79.5%로 거의 도청 방지에 도움이 되지 않는 것으로 밝혀졌다.



게다가 ASR을 도청 방지 기술을 피해 음성 인식할 수 있도록 학습했을 경우라도, Neural Voice Camouflage를 이용하면 ASR의 단어 인증 정밀도를 47.5%로 억제할 수 있는 것이 밝혀지고 있다. 덧붙여 Neural Voice Camouflage에서 도청을 어렵게 하기 어려운 단어는 "the" 등의 짧은 단어로, 이들은 대화 중에서도 가장 눈에 띄지 않는 부분이라고 연구자들은 주장한다.

더불어 Neural Voice Camouflage 개발팀은 녹음용 마이크가 놓여 있는 방에 있는 스피커 세트를 이용하여 도청이 곤란해질 만한 노이즈를 출력하는 테스트도 실시했는데, 이 테스트도 성공했고, 예를 들어 "I also just got a new monitor"라는 대화가 ASR에 "with reasons with they also toscat and neumanitor"라고 오인식되었다는 것.

이 연구를 주도한 컬럼비아대 컴퓨터 사이언티스트인 Mia Chiquier 씨는 "이것은 AI를 이용해 프라이버시를 보호하기 위한 첫 단계일 뿐입니다", "AI는 우리의 목소리, 얼굴, 행동에 관한 데이터를 수집합니다. 이에 대항하기 위한 프라이버스를 존중하는 신세대 테크놀로지가 필요합니다"라고 언급.

 


Chiquier 씨는 Neural Voice Camouflage에서 이용한 예측 기능은 자율주행차나 실시간 처리를 필요로 하는 기타 애플리케이션에 큰 가능성을 내포하고 있다고 주장. 자율주행차 기술에서는 차량이 다음으로 어디로 향할지, 보행자가 어디에 있는지 예측해야 한다. 인간의 뇌는 이를 정확히 예측하기 때문에 CHiquier 씨는 "(우리 시스템)은 인간이 하는 것과 같은 방법을 에뮬레이트합니다"라고...

미시간대학 앤아버교의 컴퓨터 사이언티스트이자 음성처리에 대한 연구를 진행하는 Andrew Owens 씨는 기계학습의 고전적인 문제인 미래의 예측과 적대적 공격이라는 다른 문제를 조합하는 것은 대단한 일이라고 언급. 일리노이 대학교 아바나 캠페인 학교 컴퓨터 사이언티스트이자 음성에 의한 적대적 공격의 응용에 대해 연구하는 BoLi 씨도, ASR에 대한 새로운 접근법에 감명받았다고...

이어 미국 자유인권 협회의 선임 정책 분석가인 제이 스탠리 씨는, "음성 카모플라주 기술은 중요한 기술로 간주되고 있다"고 코멘트.