banner
뉴스 센터
포용적 기업

콴타 매거진

Jul 13, 2023

2023년 2월 1일

Quanta Magazine의 Jeffrey Fisher

기고 작가

2023년 2월 1일

이웃이 전화해서 부탁을 한다고 상상해 보십시오. 애완용 토끼에게 당근 조각을 좀 먹여 주시겠습니까? 충분히 쉽다고 생각할 것입니다. 한 번도 가본 적이 없더라도 그 부엌을 상상할 수 있습니다. 냉장고에 당근이 있고, 다양한 칼이 들어 있는 서랍이 있습니다. 그것은 추상적인 지식입니다. 이웃의 당근과 칼이 정확히 어떻게 생겼는지는 모르지만 오이에 숟가락을 가져갈 수는 없습니다.

인공지능 프로그램은 경쟁할 수 없다. 당신이 보기에는 쉬운 작업처럼 보이는 것은 현재 알고리즘에 있어서는 엄청난 일입니다.

AI로 훈련된 로봇은 익숙한 부엌에 숨어 있는 특정 칼과 당근을 찾을 수 있지만, 다른 부엌에서는 추상적인 기술이 부족하여 성공할 수 없습니다. 워싱턴 대학교 컴퓨터 과학 대학원생 Victor Zhong은 "그들은 새로운 환경에 일반화하지 않습니다."라고 말했습니다. 배울 것이 너무 많고 탐색할 공간이 너무 넓기 때문에 기계가 실패합니다.

문제는 이러한 로봇과 일반적인 AI 에이전트에는 구축할 개념의 기초가 없다는 것입니다. 그들은 칼이나 당근이 실제로 무엇인지 모르고 서랍을 여는 방법, 하나를 선택하고 조각으로 자르는 방법도 모릅니다. 이러한 제한은 부분적으로 많은 고급 AI 시스템이 시행착오를 통한 자가 교육인 강화 학습이라는 방법으로 훈련된다는 사실에 부분적으로 기인합니다. 강화 학습으로 훈련된 AI 에이전트는 훈련받은 작업을 수행하도록 훈련받은 환경에서 매우 잘 실행할 수 있습니다. 그러나 작업이나 환경을 변경하면 이러한 시스템이 실패하는 경우가 많습니다.

이러한 한계를 극복하기 위해 컴퓨터 과학자들은 기계를 풀어 놓기 전에 기계에게 중요한 개념을 가르치기 시작했습니다. 이는 새 소프트웨어를 사용하기 전에 설명서를 읽는 것과 같습니다. 설명서 없이도 탐색해 볼 수 있지만, 설명서를 사용하면 훨씬 더 빨리 배울 수 있습니다. 프린스턴 대학의 컴퓨터 과학자인 Karthik Narasimhan은 "인간은 행동과 독서의 결합을 통해 학습합니다."라고 말했습니다. "우리는 기계도 같은 일을 하길 원합니다."

Zhong과 다른 사람들의 새로운 연구에 따르면 이러한 방식으로 학습 모델을 준비하면 온라인과 로봇을 사용하는 실제 세계의 시뮬레이션 환경에서 학습을 강화할 수 있습니다. 그리고 이는 알고리즘을 더 빨리 학습하게 할 뿐만 아니라, 다른 방법으로는 결코 배울 수 없는 기술을 배울 수 있도록 안내합니다. 연구원들은 이러한 에이전트가 체스부터 쇼핑, 청소에 이르기까지 모든 것을 배울 수 있는 만능 전문가가 되기를 원합니다. 그리고 시연이 더욱 실용적이게 되면서 과학자들은 이 접근 방식이 인간이 로봇과 상호 작용하는 방식을 바꿀 수도 있다고 생각합니다.

구글의 로봇 공학 연구 과학자인 브라이언 이터(Brian Ichter)는 "이것은 매우 큰 혁신이었습니다."라고 말했습니다. "1년 반 만에 얼마나 멀리 왔는지 상상할 수 없을 정도입니다."

언뜻 보기에 머신러닝은 이미 눈에 띄게 성공적이었습니다. 대부분의 모델은 일반적으로 알고리즘이 보상을 받아 학습하는 강화 학습을 사용합니다. 그들은 완전히 무지하게 시작하지만 시행착오는 결국 시행착오가 됩니다. 강화 학습 에이전트는 간단한 게임을 쉽게 마스터할 수 있습니다.

플레이어가 디지털 사과를 먹을수록 점점 길어지는 뱀을 조종하는 비디오 게임 Snake를 생각해 보세요. 당신은 뱀이 사과를 가장 많이 먹고, 경계 내에 머물면서 점점 커지는 몸에 부딪히지 않기를 원합니다. 이러한 명확한 옳고 그름의 결과는 보상이 좋은 기계 에이전트에게 긍정적인 피드백을 제공하므로 충분한 시도를 통해 "초보"에서 높은 점수를 얻을 수 있습니다.

하지만 규칙이 바뀌었다고 가정해 보세요. 아마도 동일한 에이전트가 더 큰 그리드와 3차원에서 플레이해야 할 수도 있습니다. 인간 플레이어는 빠르게 적응할 수 있지만 기계는 두 가지 중요한 약점 때문에 그렇게 할 수 없습니다. 첫째, 공간이 클수록 뱀이 사과를 우연히 발견하는 데 시간이 더 오래 걸리고 보상이 희박해지면 학습 속도가 기하급수적으로 느려집니다. 둘째, 새로운 차원은 완전히 새로운 경험을 제공하며 강화 학습은 새로운 과제에 일반화하는 데 어려움을 겪습니다.