| 데이터와 IT기술
데이터 산업과 시장은 컴퓨터와 통신 기술의 발달로 비약적으로 성장해 왔으며 앞으로 그 변화의 한계를 예측하기 어렵다. 과거에도 데이터를 수집하고 분석하는 노력은 지속되어 왔으나 기술의 한계로 활용에 제한이 많았다. 우선 결론부터 말하자면 데이터는 IT 기술의 ABC라고 하는 AI(Artificial Intelligence, 인공지능), Block chain(블록체인), Cloud computing(클라우드 컴퓨팅)에서 사용되는 원재료로 이해되며, 흔히 우리는 데이터를 제4차산업의 원유라고 이야기하게 되고 있다. 한편, 정보처리를 위한 IT 기술은 정보의 집중과 분산을 반복해 왔다.
처음 대형 메인프레임 컴퓨터가(Mainframe computer) 등장했을 때는 데이터를 한곳에서 모아 집중하여 처리할 수 밖에 없었지만, 개인용 소형컴퓨터(Personal computer)의 등장은 정보를 분산하여 처리할 수 있게 되었다. 최근 두드러지는 변화는 데이터가 다시 한곳에 집중되는 경향이 강해지고 있는 것이라 하겠는데, 특히 통신 기술의 발달은 데이터를 한곳으로 편리하게 모을 수 있게 하게 되어 대량으로 데이터를 집적할 수 있게 하였고, 컴퓨터의 연산능력이 기존 CPU(Centeral Processing Unit, 중앙처리장치)외에 GPU(Graphic Processing Unit, 그래픽처리장치) 등을 활용하여 급속도로 확대되어 과거와 다른 데이터 처리능력을 활용할 수 있게 되었다.
이러한 데이터 활용 능력의 놀라운 변화를 보여주는 것이 클라우드 컴퓨팅(Cloud computing)과 인공지능(Artificial Intelligence)이다. 클라우드 컴퓨팅은 인터넷을 통해 가상화된 컴퓨터의 시스템 자원(IT Resource, H/W나 S/W 등)을 이용자가 필요할 때마다 요구할 때마다 즉시 제공(On-demand)하는 것으로, 구름과 같이 실체가 보이지 않아 클라우드라고 불리고 있다.
<그림 1. 클라우드 컴퓨팅(Cloud computing)>
클라우드 컴퓨팅(Cloud computing)은 인터넷을 기반으로 하는 정보처리의 일종이며, 데이터를 자신의 컴퓨터가 아닌 클라우드에 연결된 다른 정보처리 시스템으로 처리하는 집중형 정보처리 기술이라 하겠다. 한편, 이러한 집중형 정보처리 기술과 반대되는 개념의 분산형 정보처리 기술으로 엣지 컴퓨팅(Edge computing)과 블록체인(Block chain) 등이 있다.
우선 엣지 컴퓨팅은(Edge computing)은 데이터가 수집되는 현장, 예를 들면 이동전화 단말기와 무인 단말기(Kiosk, 키오스크) 등 말단기기에서 바로 데이터를 처리하도록 하는 분산형 정보처리 기술이다. 이러한 엣지 컴퓨팅 기술은 클라우드 컴퓨팅을 보완하는 용도로 많이 이용되고 있다. 만일 자율주행 자동차에 내장된 컴퓨터가 중앙에 집중화된 클라우드를 활용하여 정보를 처리할 경우, 클라우드에 과부하가 걸리지 않도록 주변의 이동전화 기지국과 같은 곳에 엣지 컴퓨팅을 설치하여 정보를 분산 처리한다면 클라우드 컴퓨팅의 과부하 문제를 해소할 수 있을 것이다. 이와 같이 엣지 컴퓨팅은 클라우드 컴퓨팅의 과부화 문제 해소와 자율주행 차량과 같은 데이터 처리의 초저지연(超低遲延, Low latency)을 담보하기 위한 분산형 정보처리 기술로 이해된다.
<그림 2. 엣지 컴퓨팅(Edge computing)>
이러한 클라우드 컴퓨팅과 엣지 컴퓨팅과는 달리 블록체인(Block chain) 기술은 분산형 정보처리 기술이기는 하지만, 데이터 처리의 신뢰성(Credibility)을 확인하기 위한 기술이라고 하겠다.
블록체인(Block chain)은 거래 데이터를 중앙집중형 서버에 기록•보관하는 기존의 집중형 정보처리 방식과 달리 거래 참가자 모두에게 내용을 공유하는 분산형 디지털 장부(Ledger)를 의미하는 것으로서, 블록체인이 이용하는 분산원장 기술은 거래정보를 기록한 원장을 특정 기관의 중앙집중형 서버가 아닌 동료(Peer-to-Peer, P2P) 네트워크에 분산하여 참가자가 공동으로 기록하고 관리하는 기술로 이해된다.
일반 대중에게는 블록체인 기술은 비트코인과 같은 가상화폐 또는 가상자산 관련 기술로 널리 알려져 있지만, 블록체인 기술은 분산된 네트워크의 컴퓨팅 자원을 모아 거대한 연산 능력을 확보하고 이를 기반으로 중앙집중형 서버 없이 모든 작업을 처리하고 검증하는 분산형 컴퓨팅 기술이라 하겠다. 이러한 블록체인 기술은 분산형 네트워크 참여자 전체의 동의 없이는 데이터 처리가 불가능하기 때문에 정보의 위조나 변조를 방지할 수 있도록 함으로써 데이터 처리자 신분과 거래내역 등에 대한 인증과 같은 신뢰성 확보를 위해 이용될 수 있는 기술로 이해된다.
<그림 3. 블록체인(Blockchain) 개념도>
네트워크와 클라우드를 통해 집중된 데이터들은 컴퓨팅 기술을 활용한 분석 도구 등을 통해 활용되게 된다. 그 중심에 인공지능(Artificial Intelligence, AI) 기술이 있다.
인공지능이란 사람과 같이 생각하고 이해하며 행동하는 능력이 인간의 지능을 갖는 컴퓨터 시스템으로서 인공지능의 창시자 존 메카시(John McCarthy)는 인공지능을 지능형 기계를 만드는 과학 및 공학이라고 정의한 바 있는데, 이러한 인공지능은 사람과 같은 지능을 갖는 강한 인공지능(Strong AI)과 특정 문제를 해결하고 사람의 행동을 흉내 낼 수 있는 전문가 시스템과 같은 약한 인공지능(Weak AI 또는 Narrow AI)로 구분될 수 있다.
이러한 인공지능은 음성•영상인식과 처리, 법률•의료분야 등의 문제해결을 위한 전문가 시스템(Expert system), 빅데이터(Big data) 분석, 자동화된 의사결정(Automated decision) 등에 다양하게 활용되고 있으며, 앞으로 활용의 폭이 더 확대될 것으로 전망된다.
한편, 인공지능은 머신러닝(Machine learning)을 포함하며 머신러닝은 딥러닝(Deep learning)을 포함하는 것이라고 하겠는데, 머신러닝은 컴퓨터가 스스로 학습하여 인공지능의 성능을 스스로 향상시키는 기술이며, 딥러닝은 인간의 신경망(Neuron)과 비슷한 인공 신경망 방식으로 정보를 처리하는 기술을 말하는 것이라 하겠다. 머신러닝은 입력된 정보로부터 특징을 추출한 후 이를 분류하여 출력을 하는 반면, 딥러닝은 특징추출과 분류를 합하고 다층화함으로써 생성된 인간의 신경망과 유사한 일종의 블랙박스(Black box)에 데이터를 입력하여 출력하는 것으로 이해된다.
<그림 4. 머신러닝(Machine learning)과 딥러닝(Deep learning)>
이러한 인공지능은 축적된 데이터가 없이는 활용과 발전될 수 없다.
예를 들면, 인공지능은 입력되는 데이터가 부족할 경우 언더피팅(Underfiting, 과소적합)이 발생하고, 수집되는 데이터가 특정분야에 지나치게 편중되어 있는 경우 입력되는 데이터가 대표성을 갖지 못해 잘못된 결과를 도출하는 오버피팅(Overfitting, 과대적합)의 문제가 발생될 수 있겠다. 이는 공부를 너무 안하면 문제를 풀 수 없는 언더피팅의 문제가 발생하게 되고, 공부를 많이 하였으나 모의고사 기출문제만 단순히 암기하여 공부하였다면 기출문제가 아닌 다른 문제가 출제될 경우 풀지 못하는 오버피팅의 문제가 발생된다고 하겠다.
인공지능의 문제해결 능력을 향상시키기 위해서는 필요한 데이터의 수집과 가공이 중요함은 아무리 강조해도 지나치지 않을 것이다. “끝”