AI 위험을 경고하다! Center for AI Safety 성명서

AI가 사회 전반으로 퍼져나가면서 인공지능이 바꾸어 나갈 미래를 장밋빛으로 그리는 사람들이 있는 반면, 스카이넷이 점령한 암울한 사회로 그리는 사람들도 있습니다. Center for AI Safety, 줄여서 CAIS는 후자에 속하는 기관인데요. AI가 가진 위험을 심각하게 받아들여야 한다는 성명서를 발표했습니다. 업계의 유명한 인사들이 연이어 서명에 참가하면서 화제가 되었죠. 성명서 내용과 함께 AI가 어떤 위험들을 가지고 있는지 살펴보도록 하겠습니다.

* 이 글은 김단테님의 유튜브 영상을 기반으로 해서 작성했습니다.

AI 리스크에 대한 성명서

바로 성명서의 내용부터 살펴보시죠.

AI experts, journalists, policymakers, and the public are increasingly discussing a broad spectrum of important and urgent risks from AI. Even so, it can be difficult to voice concerns about some of advanced AI’s most severe risks. The succinct statement below aims to overcome this obstacle and open up discussion. It is also meant to create common knowledge of the growing number of experts and public figures who also take some of advanced AI’s most severe risks seriously.

Mitigating the risk of extinction from AI should be a global priority alongside other societal-scale risks such as pandemics and nuclear war.

AI전문가, 언론인, 정책입안자, 대중은 AI로 인한 중요하고 시급한 위험에 대해 점점 더 폭 넓게 논의하고 있습니다. 그럼에도 불구하고 첨단 AI의 가장 심각한 위험에 대해 우려를 표명하기는 어려울 수 있습니다. 아래의 간결한 성명서는 이러한 장애물을 극복하고 토론의 장을 여는 것을 목표로 합니다. 또한, 점점 더 많은 전문가와 대중이 첨단 AI의 가장 심각한 위험을 심각하게 받아들이고 있다는 사실을 널리 알리기 위한 것입니다.

AI로 인한 멸종 위험을 완화하는 것은 전염병이나 핵전쟁과 같은 다른 사회적 규모의 위험과 함께 전세계적인 우선순위가 되어야 합니다.

CAIS는 AI가 가진 위험을 심각하게 받아들여야 한다며, 그 위험이 전염병이나 핵전쟁으로 인한 멸종과도 같은 수준이라고 했는데요. AI에 대해 큰 우려를 가지고 있다는 것을 알 수 있습니다.

이러한 성명서에 서명한 사람들 중에는 업계 구루로 여겨지는 사람들도 많습니다. 대표적으로 인공지능 관련 IT 노벨상 수상자인 Yoshua Bengio, Geoffrey Hinton, ChatGPT의 샘 알트만, 알파고의 데미스 하사비스, 그 밖에 학계의 저명한 교수를 비롯해 업계 최전선에 있는 개발자 등등 모두 내로라 하는 사람들이죠.

과연 전문가들까지도 두려워하는 AI의 위험이란 어떤 걸까요? CAIS는 홈페이지를 통해 8가지 대표적인 리스크를 공개했습니다. 아래 그 내용을 deepl을 통해 번역해 봤습니다.

AI 위험의 8가지 예시

AI시스템은 빠르게 성능이 향상되고 있습니다. AI 모델은 사람이 만든 콘텐츠와 구별하기 어려운 텍스트, 이미지, 동영상을 생성할 수 있습니다. AI는 많은 유익한 용도로 활용되지만, 편견을 지속시키고, 자율 무기를 강화하고, 잘못된 정보를 퍼뜨리고, 사이버 공격을 수행하는 데 사용될 수도 있습니다. AI 시스템이 인간의 개입과 함께 사용되더라도 AI 에이전트가 자율적으로 행동하여 해를 끼칠 수 있는 가능성이 점점 더 커지고 있습니다(Chanetal.,2023).

AI가 더욱 발전하면 결국에는 치명적이거나 실존적인 위험을 초래할 수 있습니다. AI 시스템이 대규모 위험을 초래하거나 기여할 수 있는 방법은 여러 가지가 있으며, 그 중 일부는 아래에 열거되어 있습니다.

극단적인 위험에 대한 보다 심층적인 논의는 최근 연구인 "자연선택은 인간보다 AI를 선호한다" 또는 요슈아 벤지오의 "불량 AI가 어떻게 발생할 수 있는가"를 참조하시기 바랍니다.

1. 무기화

악의적인 행위자는 AI를 매우 파괴적인 용도로 변경하여 그 자체로 실존적 위험을 초래하고 정치적 불안정성을 야기할 가능성을 높일 수 있습니다. 예를 들어, 심층 강화 학습 방법은 공중전에 적용되었으며, 머신러닝 약물 발견 도구는 화학 무기 제조에 사용될 수 있습니다.

최근 몇 년 동안 연구자들은 자동화된 사이버 공격을 위한 AI 시스템을 개발해 왔으며(Buchanan 외, 2020, Cary 외, 2020), 군사 지도자들은 AI 시스템에 핵 사일로에 대한 결정적인 통제권을 부여하는 방안을 논의했고(Klare 2020), 세계 초강대국들은 자율 무기 금지 협약에 서명하지 않았습니다. 약물 개발을 위해 훈련된 AI는 잠재적인 생화학 무기를 설계하는 데 쉽게 용도가 변경되었습니다(Urbina 외., 2022). 인터넷 텍스트와 코딩으로 훈련된 모델인 GPT-4는 실제 실험실에서 자율적으로 실험을 수행하고 화학 물질을 합성할 수 있었습니다(Boiko 외., 2023).

자동화된 보복 시스템으로 인한 사고는 빠르게 확대되어 대규모 전쟁으로 이어질 수 있습니다. 앞으로 가장 지능적인 AI 시스템을 보유한 국가가 전략적 우위를 점할 수 있기 때문에 각국이 점점 더 강력한 무기화된 AI 시스템을 구축하는 것을 피하기 어려울 수 있다는 점에 주목해야 합니다. 모든 강대국이 구축하는 시스템의 안전성을 보장하고 파괴적인 AI 기술을 개발하지 않기로 합의하더라도, 불량 행위자는 여전히 AI를 사용하여 심각한 피해를 입힐 수 있습니다.

강력한 AI 시스템에 대한 접근이 쉬워지면 일방적이고 악의적인 사용의 위험이 높아집니다. 핵무기나 생물학 무기와 마찬가지로 비이성적이거나 악의적인 행위자 한 명만 있어도 대규모로 피해를 입힐 수 있습니다. 이전의 무기와 달리 위험한 기능을 가진 AI 시스템은 디지털 수단을 통해 쉽게 확산될 수 있습니다.

2. 잘못된 정보

AI가 생성한 잘못된 정보와 설득력 있는 콘텐츠가 범람하면 사회가 우리 시대의 중요한 과제를 처리할 준비가 부족해질 수 있습니다.

국가, 정당, 조직은 기술을 사용하여 다른 사람들에게 정치적 신념, 이념, 내러티브에 영향을 미치고 설득합니다. 떠오르는 AI는 이러한 사용 사례를 새로운 시대로 가져와 대규모의 개인 맞춤형 허위 정보 캠페인을 가능하게 할 수 있습니다. 또한 AI는 그 자체로 강한 감정적 반응을 불러일으키는 매우 설득력 있는 주장을 만들어낼 수 있습니다. 이러한 트렌드는 집단적 의사 결정을 약화시키고, 개인을 급진화시키거나, 도덕적 진보를 저해할 수 있습니다.

3. 대리 게임

잘못된 목표로 학습된 AI 시스템은 개인과 사회의 가치를 희생하면서까지 자신의 목표를 추구하는 새로운 방법을 찾을 수 있습니다.

AI 시스템은 측정 가능한 목표를 사용하여 학습되는데, 이는 우리가 중요하게 여기는 가치를 간접적으로 대리하는 것에 불과할 수 있습니다. 예를 들어, AI 추천 시스템은 시청 시간 및 클릭률 지표를 극대화하도록 학습됩니다. 그러나 사람들이 클릭할 가능성이 가장 높은 콘텐츠가 반드시 행복감을 향상시키는 콘텐츠와 동일하지는 않습니다(Kross et al., 2013). 또한 추천 시스템이 사람들의 선호도를 더 쉽게 예측하기 위해 극단적인 신념을 갖게 만든다는 증거도 있습니다(Jiang et al., 2019). AI 시스템의 능력과 영향력이 커짐에 따라 시스템을 학습시키는 데 사용하는 목표를 더욱 신중하게 지정하고 인간의 공유 가치를 통합해야 합니다.

4. 무력화

무력화는 중요한 업무가 점점 더 기계에 위임될 경우 발생할 수 있으며, 이러한 상황에서는 영화 월-E에서 묘사된 시나리오와 유사하게 인류가 자치 능력을 상실하고 기계에 완전히 의존하게 됩니다.

AI 시스템이 인간 수준의 지능을 잠식함에 따라 인간 노동의 점점 더 많은 부분이 AI를 통해 더 빠르고 저렴하게 수행될 것입니다. 세상이 가속화됨에 따라 조직은 이에 발맞추기 위해 자발적으로 AI 시스템에 제어권을 양도할 수 있습니다. 이로 인해 인간은 경제적으로 무의미한 존재가 될 수 있으며, AI가 많은 산업의 일부를 자동화하면 일자리를 잃은 인간이 다시 그 산업에 재진입하기 어려울 수도 있습니다.

이런 세상에서 인간은 지식이나 기술을 습득할 인센티브가 거의 없을 수 있습니다. 많은 사람들이 이러한 세상을 바람직하지 않다고 생각할 것입니다. 또한, 무력화는 미래에 대한 인류의 통제력을 감소시켜 장기적으로 나쁜 결과를 초래할 위험을 증가시킬 것입니다.

5. 가치 락인

고도로 유능한 시스템은 소수의 사람들에게 엄청난 권한을 부여하여 억압적인 시스템에 종속될 수 있습니다.

특정가치에물든AI는미래에전파되는가치를결정할수있습니다.기하급수적으로증가하는컴퓨팅및데이터진입장벽으로인해AI가중앙집권적인힘을갖게될것이라는주장도있습니다.시간이지남에따라가장강력한AI시스템은점점더적은수의이해관계자가설계하고사용할수있게될것입니다.예를들어,정권이만연한감시와억압적인검열을통해편협한가치를강요할수있습니다.

특히 우리가 이러한 체제에 의존하게 된다면 이러한 체제를 극복하기란 쉽지 않을 수 있습니다. 이러한 시스템의 개발자는 자신의 시스템이 이기적이거나 다른 사람에게 해롭다는 것을 알더라도 자신의 권력을 강화하고 통제권을 분산시키지 않으려는 인센티브를 가질 수 있습니다.

6. 긴급한 목표

모델이 더 유능해지면 예상치 못한, 질적으로 다른 행동을 보입니다. 기능이나 목표가 갑자기 등장하면 사람들이 고급 AI 시스템에 대한 통제력을 잃을 위험이 커질 수 있습니다.

오늘날의 AI 시스템에서는 시스템 설계자가 예상하지 못했던 기능이나 새로운 기능이 자연스럽게 등장할 수 있습니다(Ganguli 외, Power 외). 시스템이 어떤 기능을 가지고 있는지 알지 못하면 시스템을 제어하거나 안전하게 배포하기가 더 어려워집니다. 실제로 의도하지 않은 잠재적 기능은 배포 중에야 발견될 수 있습니다. 이러한 기능 중 하나라도 위험하다면 그 영향은 돌이킬 수 없을 수도 있습니다.

새로운 시스템 목표도 등장할 수 있습니다. 많은 AI 에이전트를 포함한 복잡한 적응형 시스템의 경우 자기 보존과 같은 목표가 종종 등장합니다(Hadfield-Menell 등). 또한 시스템 내 목표의 출현을 통해 목표는 질적인 변화를 겪을 수도 있습니다(Gall, Hendrycks 등). 앞으로 상담원은 어려운 장기 목표를 더 작은 하위 목표로 세분화할 수 있습니다. 그러나 목표를 세분화하면 실제 목표가 각 부분의 합이 아닐 수 있으므로 목표가 왜곡될 수 있습니다. 이러한 왜곡으로 인해 정렬이 잘못될 수 있습니다.

더 극단적인 경우에는 전체 목표를 희생하면서까지 시스템 내 목표를 추구할 수도 있습니다. 예를 들어, 많은 회사에서 시스템 내 목표를 설정하고 각기 다른 전문 부서에서 이러한 뚜렷한 하위 목표를 추구하도록 합니다. 그러나 관료적 부서와 같은 일부 부서가 권력을 장악하여 회사가 원래 목표와 다른 목표를 추구하도록 할 수 있습니다. 상위 목표를 올바르게 지정하더라도 시스템이 운영적으로 목표를 추구하지 않을 수도 있습니다(Hubinger 등). 이는 시스템이 인간의 가치를 최적화하는 데 실패할 수 있는 또 다른 방식입니다.

7. 속임수

우리는 강력한 인공지능 시스템이 어떤 일을 하고 있는지, 왜 그런 일을 하는지를 이해하고자 합니다. 이를 달성하는 한 가지 방법은 시스템 자체가 이러한 정보를 정확하게 보고하도록 하는 것입니다. 하지만 속임수는 다양한 목표를 달성하는 데 유용하기 때문에 이는 사소한 일이 아닐 수 있습니다.

미래의 AI 시스템은 악의가 아니라 속임수가 에이전트의 목표 달성에 도움이 될 수 있기 때문에 기만적일 수 있습니다. 정당한 방법으로 사람의 승인을 얻는 것보다 속임수를 통해 사람의 승인을 얻는 것이 더 효율적일 수 있습니다. 속임수는 또한 선택권을 제공합니다. 속일 수 있는 능력이 있는 시스템은 제한적인 정직한 모델보다 전략적 이점이 있습니다. 인간을 속일 수 있는 강력한 AI는 인간의 통제력을 약화시킬 수 있습니다.

또한 AI 시스템은 모니터를 우회하려는 인센티브를 가질 수도 있습니다. 역사적으로 개인과 조직은 모니터를 우회하려는 인센티브를 가지고 있었습니다. 예를 들어, 폭스바겐은 감시를 받을 때만 배기가스를 줄이도록 엔진을 프로그래밍했습니다. 이를 통해 배기가스 배출량을 낮게 유지하면서 성능 향상을 달성할 수 있었습니다. 미래의 AI 에이전트도 이와 유사하게 모니터링을 받을 때 전략을 전환하고 모니터로부터 속임수를 감추기 위한 조치를 취할 수 있습니다. 기만적인 AI 시스템이 모니터에 의해 제거되거나 그러한 시스템이 그들을 압도할 수 있게 되면, 이러한 시스템은 "위험한 전환"을 통해 인간의 통제를 되돌릴 수 없게 우회할 수 있습니다.

8. 권력 추구 행동

기업과 정부는 광범위한 목표를 달성할 수 있는 에이전트를 만들려는 강력한 경제적 인센티브를 가지고 있습니다. 이러한 에이전트는 권력을 획득하려는 도구적 인센티브가 있어 잠재적으로 통제가 더 어려워질 수 있습니다(Turner et al., 2021, Carlsmith 2021).

상당한 권력을 획득한 AI는 인간의 가치관에 부합하지 않을 경우 특히 위험해질 수 있습니다. 권력을 추구하는 행동은 시스템이 다른 AI와 결탁하고, 모니터를 제압하는 등의 행동을 하도록 동기를 부여할 수도 있습니다. 이런 관점에서 보면 인간보다 더 강력한 기계를 개발하는 것은 불을 가지고 노는 것과 같습니다. 정치 지도자들은 가장 지능적이고 강력한 AI 시스템을 보유하는 것이 전략적 이점이 있다고 보기 때문에 권력을 추구하는 AI를 구축하는 데 인센티브를 부여합니다. 예를 들어 블라디미르 푸틴은 "AI 분야의 리더가 되는 사람이 세계의 통치자가 될 것"이라고 말했습니다.

마무리

새로운 기술이 등장하게 되면 사회가 이를 가치철학적, 인식적, 정책적인 차원에서 포용할 수 있는 시간이 필요한 것 같습니다. 자동차와 비행기가 등장하고 여러 가지 안전 규정이 생겨난 것처럼, 이후 자율주행차가 등장해 새로운 관점의 도덕적이고 가치적인 판단과 수용이 필요했던 것처럼 말입니다. CAIS는 AI가 가진 잠재적인 위험을 핵무기와 비교하기도 했는데, 스카이넷의 강림을 막기 위해서 어쩌면 지금 꼭 필요한 일일지도 모르겠네요.

저작자표시 비영리 변경금지

'주식투자' 카테고리의 다른 글

미국 부채 한도 협상이 대중에게 미치는 영향 (0)	2023.06.03
아마존 주식이 5월 14% 상승한 이유? (미국주식 종목 이야기) (0)	2023.06.03
엘런 머스크 뉴럴링크 FDA 승인 (0)	2023.05.28
미국주식 엔비디아(Nvdia) 주가의 영광을 이어갈 종목? (마이크로소프트 MSFT, 마벨 테크놀로지 MRVL) (0)	2023.05.28
엔비디아(NVDA) 주가 시간외 주가 급등 이유 및 회사 소개 (0)	2023.05.26

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

AI 위험을 경고하다! Center for AI Safety 성명서

AI 리스크에 대한 성명서

AI 위험의 8가지 예시

1. 무기화

2. 잘못된 정보

3. 대리 게임

4. 무력화

5. 가치 락인

6. 긴급한 목표

7. 속임수

8. 권력 추구 행동

마무리

'주식투자' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

AI 위험을 경고하다! Center for AI Safety 성명서

AI 리스크에 대한 성명서

AI 위험의 8가지 예시

1. 무기화

2. 잘못된 정보

3. 대리 게임

4. 무력화

5. 가치 락인

6. 긴급한 목표

7. 속임수

8. 권력 추구 행동

마무리

'주식투자' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역