한 번씩 집에서 대청소를 하게 되면 몇 년 동안 한 번도 꺼내 보지 않은 물건들이 창고나 선반 구석에 쌓여 있는 것을 확인할 수 있다. 동료 직원은 1년 동안 한 번도 안 꺼낸 물건은 다 버리라고 충고하지만 필자를 포함한 대부분의 사람은 여전히 먼지 한 번 털고는 다시 그 자리에 넣어둔다. 이것은 ‘언젠가는 쓰게 될지도 몰라’라는 막연한 기대감이 있기 때문일 것이다.
많은 데이터도 이와 비슷한 운명을 맞게 된다. 데이터에 대한 개념이 많이 없던 과거와 달리, 지금은 많은 기업과 개인이 데이터를 자산으로 인식하고 있고, 어떤 시스템이나 장비를 구축하면 생성되는 데이터는 일단 쌓아두는 것이 자연스럽다. 다만 이렇게 자원을 투입하여 수집한 데이터들이 선반 구석에 있는 잡동사니와 다른가 하는 것은 생각해 볼 문제이다.
인공지능이 계속 발전할 수 있는 이유는 여러 가지가 있겠지만, 그중의 하나로 들 수 있는 것은 데이터의 개방이다. 많은 연구자는 공개된 이미지 데이터, 번역 데이터 등을 사용해 누가 더 잘하는지 경쟁하고 이 과정에서 끊임없이 새로운 인공지능 모델이 제시된다. 이런 분야에서는 얼마 전까지 대세였던 학습 모델이 구닥다리가 되는 것이 한순간의 일이다. 반면 데이터의 획득이 어려운 분야에서는 연구 수행이 가능한 연구자들이 제한되어 있고, 연구에 사용할 수 있는 데이터의 양도 한정적이 되어 발전이 더디게 된다. 필자가 속해 있는 에너지 분야도 데이터 획득이 까다로워 데이터의 획득 가능성이 연구제안서의 첫 번째 조건이 된다.
데이터의 개방은 좋다 나쁘다로 획일화해서 생각할 수 있는 문제는 아니다. 데이터의 자산성을 고려해볼 때 자원을 투입해 축적한 데이터를 타인에게 제공하는 것은 낭비로 인식될 수 있다. 또한 이 정보에 개인이나 기업의 비밀이 포함될 수도 있기 때문에 데이터의 제공은 신중하게 검토해야 하는 문제인 것은 당연한 일이고, 데이터 관리자가 보수적 관점을 보이는 것도 자연스럽다. 그러나 데이터 제공으로 인해 새로운 서비스의 출현이나 품질 개선이 이루어질 수 있다는 관점을 피력하는 쪽에서는 다소 아쉽다는 생각이 드는 것도 어쩔 수 없다. 얼마 전 한국전력공사에서 진행했던 데이터 공개 관련 공청회에 참석한 적이 있다. 얼마나 공개하는가는 차치하고서라도, 데이터 개방에 대한 열망을 계속 반영하고 있는 것은 다행스러운 일이다.
최근 이사를 하면서 더는 쓸모 없어 보이는 물건 몇 개를 중고거래 플랫폼에 올려 보았더니 생각 외로 거래가 잘 이루어졌다. 요즘은 데이터도 판매가 이루어지고 있고, 특정 분야에서는 양질의 데이터 판매를 사업 목적으로 하는 기업도 존재한다는 점을 볼 때 대가 여부를 불문하고, 데이터의 활용성은 증가하는 방향으로 가고 있다고 할 수 있다. 물속에 빠트린 한 푼을 줍기 위해 두 푼을 들여 사람을 고용했다는 이야기까지는 하지 않더라도, 먼지 쌓인 데이터를 햇볕 아래 내어놓을지, 선반에 다시 넣어두어야 할지 한 번쯤 생각해 볼 필요는 있어 보인다.
강지명 한국전기연구원 박사
nbgkoo@heraldcorp.com