생성형 AI가 풀지 못한 숙제 part.1 - 데이터 이용과 저작권 이슈
2023.08.28

생성형 AI가 풀지 못한 숙제 part.1 - 데이터 이용과 저작권 이슈

박정관(법무법인 율촌 전문위원)


생성형 AI 


작년 11월 Open AI가 생성형 AI인 ChatGPT를 세상에 선 보인 지 9개월이 지났다. 그동안의 AI와는 차원이 다른 생성형 AI 등장은 최초의 산업혁명과 견줄 정도의 변화를 예상하고 있다. 그래서 대부분의 담론은 기술 발전을 위해 인터넷에 있는 모든 데이터를 학습용으로 제공해야 한다는데 있었다. 

하지만 어느 정도 시간이 지난 지금은 차분하게 데이터 사용에 대한 논의를 진행하는 분위기이다. 이렇게 된 데에는 AI에 이용되는 학습 데이터를 만들었던, 즉 저작권을 가진 사람들의 생존 싸움이 큰 역할을 하는 것으로 보인다.

생성형 AI란 결국 아래 그림에서 보듯이 <input 데이터  생성형 AI 모델  output 결과물> 로 작동하는 구조이다. input 데이터를 학습용으로 확보하고, 이를 각 AI 회사의 모델로 돌려서 output을 생산해 내는 것이다. 

따라서 생성형 AI가 시장에서 계속 선택을 받기 위해서는 품질이 좋은 input 데이터 확보가 절대적으로 중요하다. input 데이터란 인터넷에서 떠돌아 다니는 모든 데이터를 의미한다. 구체적으로는 언론 기사, 이미지, 동영상, 학위 논문, 블로그, 소셜 대화 내용 등 포함되지 않는 것이 없다. 

따라서 앞으로 두 번의 원고에서는 input 데이터가 학습용으로 어디까지 허용될 수 있는지에 대한 논의 동향을 1)일반적인 생성형 AI 분야와 2)금융 분야 생성형 AI 분야로 나누어서 정리한 후 시사점을 도출할 예정이다. 

먼저, 이번 달은 일반적인 생성형 AI 분야에서 학습용으로 이용되는 데이터 이슈를, 특히 그중에서도 공정한 이용(fair use) 이슈를 다루고자 한다. 공정한 이용이란, 저작권에 대해 지나치게 엄격하게 보호할 경우 다른 사람이 전혀 사용하지 못하는 부작용을 방지하기 위해 다른 사람도 공정한 범위 내에서 이용할 수 있도록 하자는 것이다. 즉, 생성형 AI 모델이 인터넷에서 볼 수 있는 데이터를 학습용 데이터로 사용하는 것이 가능한지 여부에 관한 내용이다.


학습 데이터 공정 이용(fair use) 동향


생성형 AI 회사는 일반적으로 인터넷에 공개된 대부분의 데이터를 가져간 후 이를 input 데이터로 학습시켜서 모델에 적용시키고 output인 결과물을 만들어 낸다. 이때 input 데이터를 AI 학습에 사용해도 괜찮은 것인지는 전적으로 저작권법에 달려 있다. 한국의 저작권법 제35조의5 제2항에서는 기존의 저작권에 얽매이지 않고 다른 사람도 이용할 수 있도록 하는 것을 ‘공정한 이용(fair use)’이라고 부르며 고려해야 할 기준을 다음과 같이 4가지로 규정하고 있다. 

  • 이용의 목적 및 성격
    즉, 상업적 성격을 가졌는지 혹은 비영리 교육적 목적을 가졌는지 여부
  • 저작물의 종류 및 용도
  • 이용된 부분이 저작물 전체에서 차지하는 비중과 중요성
  • 저작물의 이용이 그 저작물의 현재 시장 또는 가치나 잠재적인 시장 또는 가치에 미치는 영향
    즉, 생성형 AI를 이용해서 생산한 결과물이 기존에 이용한 데이터에 잠재적 경쟁자가 되는지 여부

이 원고에서 다루고 있는 input 데이터를 학습 데이터로 이용할 수 있는지(fair use) 여부는, 생성형 AI 모델이 만든 output 결과물이 누가 저작권을 가지는지(authorship), output 결과물이 기존 저작권 위반을 일으키는지(infringement) 여부와 함께 저작권법에서 다루고 있다는 말이다 . 

이는 미국의 저작권법(Copyright Act)에서도 비슷한 내용을 볼 수 있다. 다만, 문제는 현재의 저작권법으로는 생성형 AI의 학습용 데이터를 이용하는 것에 논란이 있다는 것이다. 

현재 미국 등에서는 자신들의 작품이 학습에 이용되었다고 판단한 콘텐츠 생산자, 즉 크리에이터들의 반발이 이어지고 있다.  가장 먼저 제기된 것은 작가들이다. Sarah Silverman이라는 코메디언을 포함해 작가들은 Open AI와 Meta를 상대로 저작권 위반 소송을 제기하였다. 

이에 더하여 7월, 미국 작가협회 소속 작가 8,000명은 Open AI, Meta, Google 등 6개 빅테크 기업에 서한을 보내 생성형 AI 학습에 자신들의 작품을 무단으로 사용하지 말도록 촉구했다 . 아울러, 화가들은 Stability AI와 Midjourney를 상대로 저작권 위반 소송을 제기했다. 

문제는 작가나 화가들만 유달리, 고집스럽게 생성형 AI에 반감을 가지고 있는 것이 아니라는 것이다. 콘텐츠를 만들고 있는 기업들도 생성형 AI에 불만을 제기하고 있다. 영국에서는 게티이미지가 이미지 생성 AI 회사인 Stability AI를 상대로 자신들의 이미지를 무단 사용했다고 소송을 제기했다. 일론 머스크(Elon Reeve Musk)의 트위터나 레딧과 같은 온라인 커뮤니티 회사 역시 생성형 AI 회사에 콘텐츠 비용을 지불할 것을 요구했다 .

반면, 이스라엘 정부는 생성형 AI의 데이터 학습에 우호적인 태도를 보이고 있다. 이스라엘 법무부는 Open AI가 ChatGPT를 발표한 직후인 작년 12월 저작권의 공정한 이용(fair use)에 대한 공식 의견서를 발표했다 . 대부분의 국가들이 생성형 AI가 학습하는 저작권 콘텐츠의 이용에 대해 어떻게 해야 할지 결정하지 못하고 있는 상태이지만 이스라엘은 생성형 AI가 데이터 학습에 지장을 받지 않도록 공식 의견서를 통해서 저작권법을 해석하였다. 

즉, 생성형 AI는 기존 저작권에 관계없이 공정한 이용(fair use)을 할 수 있다는 것이다. 다만, 이 의견서 마지막 부분에는 단서 조항이 있다. 즉, 이 의견은 콘텐츠가 다양하지 않고 오히려 소수의 개인 창작자의 작품으로만 구성되는 상황에는 적용되지 않는다는 것이다. 결국 이스라엘에서도 이런 복잡한 부분은 각 케이스별로 정부가 다시 판단해야 할 것으로 보인다. 

이스라엘 정부의 데이터 학습에 대한 해석은 결국 다른 국가들에게도 큰 영향을 줄 것으로 보인다. 한국의 경우 저작권을 담당하는 문체부가 10월에 관련 정책방향을 발표할 것으로 예상된다. 기재부 장관은 7월 21일 ‘서비스산업의 디지털화 전략’ 발표에서 AI 학습에서 저작권 침해를 면책하는 방향성을 발표했다. 결국 문체부의 10월 발표에서 이 부분이 구체화될 것으로 예상되지만 구체적인 내용은 이스라엘 법무부의 의견서와 유사하게 갈 것으로 추측할 수 있다. 

각국의 정부들이 학습 데이터에 대해 명확한 방향을 제시하지 못하고 ‘지켜보자(wait and see)’ 태도를 취하는 동안 생성형 AI 회사들은 계속 인터넷의 데이터를 학습시키는 한편 특정 콘텐츠 회사를 상대로는 사용허가(license) 계약을 맺고 있는 현상이 나타나고 있다. 

예를 들어 뉴욕타임스(The New York Times)는 회사의 이용약관을 개정해서 생성형 AI 회사가 무단으로 기사를 도용하지 못하게 하면서, 이용료를 받는 협상을 시도하고 있다 . 생성형 AI 회사인 구글과 음반 및 비디오물 회사인 유니버셜 뮤직(Universal Music)은 아티스트들의 멜로디와 음성에 대해 사용허가(license) 계약을 하려고 대화하고 있다 . 


시사점


생성형 AI의 놀라운 혁신에도 불구하고 기존에 저작권을 가진 사람들이 반발하는 것은 우리에게 이 기술이 지배하는 사회에 대해 인사이트를 제공해 준다. 국가 경쟁력 확보나 AI 가 가져오는 혜택을 보면서 기존의 질서가 붕괴되는 것을 참아내야 한다는 주장은 사실 우리에게 설득력이 크지 않다. 미국 FTC의 위원장인 리나 칸(Lina Khan)이 예상하는 것처럼 결국 생성형 AI는 몇몇 소수의 빅테크들이 자신들의 위치를 공고히 하는 모습으로 귀결될 가능성이 큰 것으로 보인다 . 

또한, 생성형 AI 회사들은 학습용 데이터인 input 데이터의 품질과 정확성이 자신들의 생성형 AI가 시장에서 선택 받는 데 치명적으로 중요한 요소이기 때문에 중요한 콘텐츠 제공자들과는 계약을 통해서 비용을 지불할 것으로 보인다. 결국 콘텐츠 제공업자들과 플랫폼 운영업자와의 분쟁이 AI 혁신의 시대에도 계속된다는 것을 의미한다. 즉, 기존 방송산업에서 지상파방송과 유료방송 간의 재송신 비용에 대한 치열한 분쟁, 유료방송과 홈쇼핑 간의 송출수수료를 둘러싼 분쟁, SK브로드밴드와 넷플릭스 간의 망사용료 분쟁 등이 혁신적인 생성형 AI 시대에도 계속된다는 의미인 것이다. 

반면, 자신들의 데이터가 input 데이터로 학습에 이용되었는지 알지 못하면서 실제로는 학습에 이용된 힘이 없는 대다수의 콘텐츠 제공자(한편으로는 소비자이기도 함)이기도 한 우리들은 생성형 AI에게 아무런 비용을 받지 못하면서 유료화된 AI에 사용료를 지급해야 할 것이다. 넷플릭스, 아마존 프라임, 티빙 등 OTT를 여러 개 보면서 사용료를 지급하는 것처럼 앞으로는 생성형 AI를 여러 개 구독하면서 사용료를 지급하게 될 것이다. 

따라서 콘텐츠 제공자이면서 사용료를 지급해야 하는 소비자인 ‘사람들’에 대한 보호 이슈가 커질 것으로 보인다. 생성형 AI의 혜택을 모두가 공유하면서 뒤쳐지는 사람이 없도록 해줄 ‘책임 있는 지혜’가 더욱 절실히 필요해 보인다. “끝”.


<별첨> 생성형 AI의 input 데이터 이슈 도식(저자 작성)


<참고 문헌>

- Christopher T. Zirpoli(2023) Generative Artificial Intelligence and Copyright Law, Congressional Research Service, 2023. 5. 11
- 문병기(2023) 미 작가들 “AI 훈련에 콘텐츠 무단 사용 말라”…빅테크 상대 집단 소송, 동아일보, 2023.8.1
- 박종원(2023) 머스크, MS에 소송 예고, 파이낸셜뉴스, 2023.4.19
- State of Israel Ministry of Justice(2022) Opinion: Use of Copyrighted Materials for ML. 2022.12.18 
- 김은성(2023) 데이터 도둑 사용 제동걸까…문체부, 10월 AI 활용방안 발표. 경향신문, 2023.7.23
- Trishla Ostwal(2023) The New York Times Updates Terms of Service to Prevent AI Scraping its content, ADWEEK, 2023.8.10
- Anna Nicolaou & Madhumita Murgia(2023) Google and Universal Music negotiate deal over AI ‘deepfakes’. Financial Times, 2023.8.9
- Lina Khan(2023) Lina Khan: We must regulate A.I. Here’s How. The New York Times, 2023.5.3
상기 콘텐츠의 모든 저작권은 BC카드 신금융연구소 (이하 'BCiF')에 있으며, 무단 도용을 금합니다.
본 자료를 인용 및 발췌하고자 할 경우 출처를 명확하게 표기해야 합니다.
박정관
법무법인 율촌에서 전문위원으로 활동하고 있는 그는 미래창조과학부, 방송통신위원회를 거치며 방송 및 통신 정책과 관련된 전문 실무 경험을 축적하고, 미래전파공학연구소에서 ICT정책연구실장을 역임했습니다. 고려대학교에서 영문학을 전공한 그는 영국 City University, Westminster University 에서 각각 커뮤니케이션정책학 석사 학위를 취득했고, KDI국제정책대학원에서 공공정책학 석사 학위를 취득했습니다. 연세대학교 정보대학원에서 마이데이터 분야와 관련된 논문으로 박사 학위를 취득했습니다. 현재 호서대학교 기술경영전문대학원에서 겸임교수로도 활동하고 있습니다.