제공 :
한빛 네트워크
저자 : Howard Wen
역자 : 한순보
원문 :
Big ethics for big data
기업이 엄청난 수집(massive aggregation)과 데이터 분석에 연관된 윤리 문제를 대처할 수 있는 방법
현대 기업에서 데이터 수집, 구성 및 유지가 흔해지면서 빅 데이터 배후에 있는 윤리적 문제의 중요성도 커졌다. 실제로 이 정보를 누가 소유하는가? 궁극적으로 데이터를 유지하는 책임은 누구에게 있는가? 프라이버시 문제와 의무는 무엇인가? 빅 데이터에 관한 기술의 윤리적 혹은 비윤리적 사용이란 무엇인가?
이것들은 "
빅 데이터의 윤리(Ethics of Big Data)"에서 저자 kord Davis (@kordindex)와 Doug Patterson (@dep923)이 언급한 질문이다. 다음 인터뷰에서 두 사람은 "빅 데이터" 용어의 발전, 대량 정보 수집 시대의 윤리, 그리고 빅 데이터 생태계에 대한 우려를 낳은 새로운 기술에 대한 생각을 나눈다.
"빅 데이터"를 어떻게 정의하시겠습니까?
Douglas Patterson: 빅 데이터와 예전의 보통 데이터 사이 경계는 기술 개발과 함께 나아가는 어떠한 것입니다. 이 공간에서의 새로운 개발은 프라이버시와 무시하기 어려운 다른 윤리적 문제에 대한 오래된 의문이 생기게 합니다. 단지 사람들이 어디에 있는지, 혹은 무엇을 보거나 읽는지 알 수 있다면 무슨 일이 일어날까요? 비즈니스 모델과 프로세스 관점에서 보면 NoSQL 플랫폼 등의 현재 동향보다는 아마도 "영향(impact)"이 "빅(big)"에 대해 생각하는 데 있어 더 나은 방법입니다.
데이터를 특정한 기술로 묶어두는 게 최선은 아니라고 생각하는 우리 같은 사람에게 유용한 빅 데이터의 정의는 빅 데이터는 데이터가 매우 커서 익명화의 유효성에 대한 이론뿐이 아닌 실질적 걱정을 가져온다는 것입니다.
Kord Davis: 자주 인용되는 특징인 "부피(volume), 속도(velocity), 그리고 다양성(variety)"은 유용한 표지(landmark)인데, 이는 데이터 셋의 크기, 데이터를 구하고 질의할 수 있는 속도, 그리고 데이터를 생성하는 넓은 범위의 포맷과 파일 타입 같은 지속적인 요소입니다.
그런데 그 영향이 윤리적 이슈를 생기게 합니다. 빅 데이터는 우리 삶에서 순전히 크기와 속도로만 "강요 기능(forcing function)"을 만듭니다. 최근 CNN은 우리 책의 예와 유사한 이야기(
story similar to an example in our book)를 게재했습니다. 25년 전 비디오를 대여하던 시절 정보는 악용을 줄이기 위해 사적인 것으로 간주하였는데, 국회에서 해당 정보의 공유를 막는 법을 제정할 정도였습니다. 오늘날엔 같은 정보를 수백만이 공유하려고 합니다. 빅 데이터의 강요 기능이 그야말로 어떻게 우리의 가치에 영향을 주는지 보여주는 직접적인 예라 할 수 있습니다.
그 영향은 양 방향 길입니다. 시스템을 변화시키지 않고는 관찰할 수 없는 과학 원칙처럼, 빅 데이터에 영향을 주지 않고는 사용할 수 없습니다. 빅 데이터는 단지 매우 크고 빠릅니다. 빅 데이터는 우리의 가치를 확대할 수도 있고, 특히 그들이 바라는 특정 결과 쪽으로 집중하여 수집할 때 더욱 강력하고 영향력 있는 데이터가 됩니다.
빅 데이터는 넓은 범주가 되는 경향이 있습니다. 어떻게 줄이겠습니까?
Douglas Patterson: 데이터 셋이 공개되거나, 대상(target) 광고 등에 영향을 주기 전에 익명화하는 것이 한 가지 방법입니다. 법률학자 Paul Ohm이 말한 것처럼 "데이터는 유용하거나 완벽하게 익명일 수 있지만, 둘 다일 수는 없습니다."
당신이 어디서 먹었는지, 무엇을 보았는지 같은 당신에 대한 특정한 것을 제가 알고 있다고 해봅시다. 카르네 아사다(carne asada)와 영국 시트콤을 좋아하는 특정한 한 명이 있다는 "정보"를 공개한다고 해도 결과적으로 정말 당신의 프라이버시를 침해하는 상황에 부닥칠 것 같지는 않습니다. 하지만 제가 약 1억명에 대한 정보를 가지고 있다면, 특정한 이름을 붙이고 특정 위치에 있는 개인에 데이터 포인트(data point)를 결부시키는 것이 가능한 패턴이 나옵니다.
Kord Davis: 다른 접근은 위험과 혁신 사이의 균형을 이루는 것입니다. 빅 데이터는 비즈니스, 교육, 의료, 정부, 제조업, 그리고 많은 분야에 이익을 가져올 큰 기회를 상징합니다. 하지만 개인 프라이버시에 대한 위험, 개인 평판과 온라인 신원 관리 능력, 그리고 개인 데이터에 대한 소유권 획득과 상실이 의미하는 것이 이제 막 논의의 주제가 되고 있으며, 그들 중 일부가 자연스럽게 윤리적 질문을 가져옵니다. 빅 데이터 혁신이 제공하는 이익을 이용하기 위해서는 구현상의 실질적 위험을 이해해야 합니다.
어떻게 윤리를 빅 데이터에 적용할까요?
Kord Davis: 다른 기술처럼 빅 데이터 자체는 윤리적으로 중립입니다. 하지만, 빅 데이터의 사용은 그렇지 않습니다. 포함하는 윤리가 추상적 개념이지만 실 세계에서는 상당한 영향을 미칠 수 있습니다. 우리 활동(action)을 알리고 가치에 맞춰 조절하기 위해 의도적인 윤리적 질문과 연관시키는 더 나은 방법과 수단을 개발하는 것이 목표입니다.
빅 데이터의 수용 가능 사용(acceptable use)에 대한 디지털 "권리 장전(Bill of Rights)"을 제정하려는 상당한 노력이 있었습니다. 최근 백악관이 소비자 프라이버시 권리장전(
Consumer Privacy Bill of Rights)을 위한 청사진을 발표했습니다. 그 청사진이 지지하는 가치는 투명성, 보안, 책임을 포함합니다. 우리가 비즈니스를 계속하면서 매일 활동에서 그러한 가치를 존중하는 방법이 도전(challenge)입니다.
언젠가는 데이터 제공자와 데이터 수집가(회사) 사이의 마찰을 예상하십니까?
Douglas Patterson: 물론입니다. 예를 들면, 당신이 사고가 나서 의식이 없이 병원에 치료를 받으려고 후송됩니다. 이 과정에서 많은 데이터가 생성되고, 더 효과적인 치료를 개발하는데 데이터가 유용하다고 가정합시다. 그것이 당신의 데이터라는게 명백한가요? 데이터가 치료 중에 생성됐지만, 당신의 생명을 구하는 과정의 모든 것은 병원이 제공한 장비와 다양한 비즈니스, 대학, 정부 관련 기관에서 수십 년간 개발된 노하우에 근거합니다. 이익을 창출할 뿐만 아니라 같은 데이터가 장래에 생명을 구하는 데 도움이 될 수도 있습니다. 데이터를 생성하는 것은 소위 상호 간의 노력이기 때문에 그 데이터가 당신 데이터라는 것은 명백하지 않습니다. 하지만 또한 병원이 원하는 대로 그것을 사용할 수 있다는 것도 명백하지 않습니다. 아마도 올바른 환경에서 데이터는 탈 익명화되어 당신이 다칠 때 하고 있었던 일종의 난처한 것들이 드러날 수도 있어, 당신의 평판을 크게 훼손할 수도 있습니다. 데이터로 이익을 얻으려는 수집가나 기업에 병원이 데이터를 완전히 주거나 파는 것은 병원이 데이터로 하고 싶어할 수 있는 것인데, 특히 당신은 이것을 막고 싶어하는 것일 수 있습니다. 특히 당신이 수익 일부를 받지 않는다면 말입니다.
데이터로 무엇을 해도 되고, 무엇을 해서는 안 되는지에 대해 누가 말하는지에 대한 질문. 소유권에 대한 질문이 실제의 어려운 문제가 떠오르는 곳입니다.
어떠한 데이터 기술이 윤리적 우려를 낳습니까?
Douglas Patterson: 지리위치(Geolocation)가 큽니다. 얼마 전 iPhone의 위치 기록 소란 혹은 Facebook이나 Foursquare에서 친구의 위치를 조사하는 것이 으스스한지에 대해 사람들의 생각이 얼마나 다른지 생각해보십시오. 의료 데이터는 이 분야가 기술을 따라잡으면서 점점 더 커지고 더 큰 이슈가 됩니다.
많은 사람이 언젠가는 정신을 차리고 소셜 미디어의 "마찰 없는 공유"를 통해 전달한 정보가 얼마나 되는지에 대해 "다시 하기(do over)"를 요구할까요? 교사로서 저는 학생들이 이것에 대해 거의 걱정하지 않아서 놀랐는데, 너무 많은 정보를 널리 알리는 것을 아주 끔찍한 것으로 생각한 저의 부모 세대와 상반됩니다. 이 경향은 프라이버시가 가는 길에 대한 어떤 생각을 지지하는 것 같지만, 그러한 경향이 항상 계속되지는 않습니다.
Kord Davis: 예측 분석(predictive analytics)이 오랫동안 활발했지만, 빅 데이터 기술 개발은 거대한 데이터 셋에의 접근성 그리고 데이터 마이닝과 일반적인 하드웨어와 소프트웨어를 사용하는 데이터를 관련짓는 능력은 향상했습니다. 잠재적인 이익은 거대합니다. 유망한 예는 교육에서의 장기적인 연구가 중요하고 더 극미한 데이터 특징을 수집하고 처리할 수 있지만, 우리가 얻게 되는 것에 대해서는 알지 못합니다. 그것이 정확한 주장입니다. 더 정제된 지지자 인원을 평가할 수 있는 것은 "교육을 향상하기 위한 강력한 방법을 드러내라(
unlock powerful ways to improve education)"에 잘 나타납니다. 비슷한 조건이 의료, 농업에 존재하고, 심지어 일기 예보가 더 믿을 만해져서 천재지변으로부터 피해를 줄일 수 있습니다.
반면에 더 큰 데이터 셋의 가용성과 처리 및 질의 능력은 기관들이 더 깊은 통찰력을 얻기 위해 공유하고 상호 비교하는 것을 부추깁니다. 한 기관 내에서 가치를 확인하고 활동을 조절하기 어렵다고 생각한다면, 얼마나 많은 기관이 하루에 전자 추적 기록(data exhaust)의 데이터에 접근할지 상상해 보세요.
심지어 온라인에서 신발을 사는 것 같이 단순한 단일 거래조차 은행, 상점 카드 처리기, 소매 혹은 도매상, 신발 제조사, 배송 업체, 인터넷 서비스 제공자, 전자상거래가 가능하게 하는 엔진을 운영하고 관리하는 회사, 그리고 그것을 지원하는 모든 기반 시설(infrastructure) 기관과 관련됩니다. 거래의 작은 부분이 저장되고, 공유되고, 혹은 그렇지 않으면 오용될 여러 기회가 있습니다. 이제 세금을 낼 때의 데이터의 흐름을 상상해보세요. 혹은 언제라도 널리 가능하게 된다면 투표에 대해서도.
빅 데이터의 미래 영향을 알려 주는 최근 사건은 무엇입니까?
Douglas Patterson: 제 돈에 관하여, 가장 큰 영향은 광고 자금 혹은 광고 자금을 따라가는 투자 자금에 의해 웹에 있는 모든 것에 대한 자금에 있습니다. 소프트웨어를 돈 주고 사곤 했던 때를 기억합니까? 이제 Google이 모든 것을 당신의 데이터를 얻고 광고를 보여주기 위해 무료로 주는 것을 보십시오. 혹은, 많은 사용자의 삶에 Facebook의 만연한 절대적인 영향력을 생각해보십시오. Facebook에 영향을 받지 않은 저의 사회생활은 거의 없습니다.
장래에 오웰 주의자(Orwellian)나 "마이너리티 리포트(Minority Report)" 이상의 걱정할 종류의 것들이 더 있을지도 모릅니다. 아마 이미 현재 우리에게 위험할 만큼 가까울 수도 있습니다. 다시 긍정적인 면에서 보면, 틀림없이 의료계에서 빅 데이터에서 나오는 엄청난 것이 있을 것입니다. 그것의 영향은 오직 더 커질 것입니다.
Kord Davis: 중동의 정권 교체 노력과 월스트리트 점령 운동(Occupy Movement)은 조직화하고 의사 소통하는데 모두 빅 데이터 기술을 이용했습니다. 이러한 사회 운동은 강한 공통 가치 집합을 공유하며, 빅 데이터가 사회 운동이 전례 없는 크기와 속도와 규모로 합치는 것을 가능하게 했습니다. 우리의 가치와 그것들이 우리 활동에 어떻게 영향을 미치는지에 대해 더 이해하기 위한 논쟁이 있었다면, 이러한 예는 빅 데이터가 우리 삶에서 거대한 변화에 영향을 미칠 수 있다는 것을 강력하게 상기시키는 것입니다.