여러분, 최근 인공지능(AI) 분야에서 뜨거운 이슈 중 하나가 무엇인지 아시나요? 바로 OpenAI의 AI 모델이 저작권이 있는 콘텐츠를 기억하고 있다는 주장을 뒷받침하는 새로운 연구 결과입니다. 이 연구는 OpenAI의 여러 AI 모델, 특히 GPT-4와 GPT-3.5가 훈련 시 사용된 데이터의 일부를 ‘암기’했음을 보여주는 결과를 담고 있습니다.

저작권 문제는 AI의 발전과 함께 점점 복잡해지고 있습니다. 많은 저자와 프로그래머가 OpenAI에 대해 자신들의 작품이 무단으로 사용되었다며 소송을 제기하고 있습니다. OpenAI는 '공정 사용(fair use)' 조항을 주장했지만, 여러 법적 소송에서 저작권자들은 데이터 훈련에 관한 명확한 규정이 없다고 반박하고 있습니다. 이 점에서 최근의 연구는 단순한 주장을 넘어서, 실질적인 증거를 제공하는 중요한 의미를 가지고 있습니다.

연구의 주요 발견은 무엇일까요? 데이터 분석에 참여한 연구자들은 ‘하이 서프라이저(high-surprisal)’라는 개념을 사용했습니다. 하이 서프라이저는 특정 문맥에서 통상적으로 나타나지 않는 단어들을 말합니다. 예를 들어, “Jack and I sat perfectly still with the radar humming”이라는 문장에서 “radar”라는 단어는 일반적인 단어들보다 덜 흔히 등장하기 때문에 하이 서프라이저로 분류됩니다. 연구진은 이런 하이 서프라이저 단어를 통해 AI 모델이 훈련 데이터에서 특정 부분을 암기했는지 여부를 검증했습니다.

조사 결과, GPT-4는 인기 소설의 일부를 암기한 것으로 나타났습니다. 특히 저작권이 있는 전자책 데이터셋도 포함되어 있는 몇몇 소설을 암기했으며, 뉴욕 타임스 기사들을 연상시키는 패턴도 발견되었습니다. 이러한 결과는 AI 모델이 얼마나 많은 데이터를 활용해 왔는지를 다시 한번 생각하게 만듭니다.

이 연구를 공동저술한 워싱턴 대학교의 박사 과정 학생 Abhilasha Ravichander 씨는 “신뢰할 수 있는 대형 언어 모델을 만들기 위해선 그 모델이 훈련에 사용된 데이터를 투명하게 파악할 수 있어야 한다”고 밝혔습니다. 이러한 데이터 투명성의 필요성은 앞으로의 AI 생태계에서 더욱 중요한 이슈로 남을 것입니다.

OpenAI의 AI 모델과 저작권 문제: 데이터 암기와 윤리적 논란의 진실

해시태그

Leave a Comment 응답 취소