
eDiscovery A – Z eDiscovery Book
Collection
컬렉션은 잠재적인 잠재적인 소송 관련 전자 정보(Electronically Stored Information)를 기기로부터 획득하는 과정입니다. 수집된 데이터가 증거로서 효력을 인정받을 수 있도록, 별도의 수정 및 변경이 없는, 원본성과 무결성을 확보한 채 수집 및 보존해야 합니다. 이렇게 처리된 데이터들은 처리, 분석, 프로덕션까지 이디스커버리 전 과정에서 활용되며, 이후 작업 과정에서 실수로 삭제되거나 수정이 되더라도 수집된 원본 데이터를 활용해 처리할 수 있습니다.

모든 데이터 처리 과정은 법정에서 설명 가능해야 하고, 관련된 모든 논쟁에 대해 방어 가능해야 합니다. 이 과정은 수집된 데이터가 원본에서 변경되지 않은 소송 관련자가 사용한 것과 동일한 것임을 증명하는 과정이 포함됩니다.
전자 정보의 범위는 무척 방대하기 때문에 수집 범위를 정하는 것도 논의의 대상이 됩니다. 수집된 자료를 바탕으로 데이터가 처리되고 분석이 이뤄지기 때문에 이디스커버리 과정에 소요되는 시간 및 비용에 직접적인 영향을 줍니다. 과도하게 많은 컬렉션은 그 자체 뿐 아니라, 이후의 데이터 처리와 분석 비용에도 큰 차이를 불러올 수 있습니다.
수집(Collection)의 범위
데이터는 소송 관련자인 Custodian으로부터 수집됩니다. Custodian의 범위 및 데이터 수집 범위를 결정하는 것은 소송 담당자의 역할입니다. 과도한 컬렉션은 소송 비용의 증가를 불러오며, 지나치게 적은 양의 콜렉션은 법정에서 문제가 될 수 있습니다. 요즘은 대부분의 문서가 전자화됨에 따라 합리적인 수준으로 검토 및 처리해야 할 문서들의 양이 증가하고 있으며, 이는 곧 콜렉션 대상이 되는 데이터의 증가로 이어집니다.
컬렉션 담당자는 소송과 관련된 데이터만을 추려내기 위해 신중하게 접근할 필요가 있습니다. 콜렉션의 범위를 결정하는 고려사항은 아래와 같습니다.
1. 사용자/소유자 또는 위치
2. 생성/변경 날짜
3. 시스템 또는 파일의 종류
4. 파일 또는 시스템에 포함된 키워드
데이터들은 주로 개인 PC 내장 디스크나 사내 서버 등 고정 스토리지, 휴대폰, USB등 휴대용 스토리지, 고정 스토리지, 데이터 소유자의 직접 통제 밖에 있는 클라우드 등 타사 호스팅 스토리지에 저장되어 있습니다. 이 데이터 중 사건 대상자가 직접 작성, 편집, 저장한 관련 문서, 이메일, 등 관련 문서들이 수집 대상이 됩니다.
또한, 문서에 관련된 로그, 메타데이터 등 데이터 흔적도 중요한 수집물입니다. 메타 데이터는 전자정보의 컨텍스트이며, 정보가 생성된 컴퓨터, 만든 날짜, 수정한 날짜, 파일의 저장위치에 대한 정보들이 포함되어 있습니다. 이 정보는 리뷰 중 관련 문서의 필터링, 검색 및 우선순위 설정에 사용할 수 있습니다. 메타데이터는 데이터의 위/변조 흔적을 찾는데도 도움이 되지만, 실제 분석 과정에서 문서를 관리하는 도구로도 활용할 수 있습니다.
Preservation(보존)과 Collection(수집)의 차이
보존(preservation)과 수집(Collection)은 차이가 있습니다. 보존(Preservation)은 잠재적으로 관련된 데이터를 삭제하지 않는 것입니다. 법정에서는Preservation에 대한 특정한 방법이나 절차를 규정하지 않고 있으며, 단지 이디스커버리 과정 중에 벌어질 수 있는 증거의 훼손 방지만을 요구합니다. 보존된 모든 데이터를 수집한다고 하면 비용이 너무 많이 들고 비효율적이기 때문에 보존과 수집을 분리할 필요가 있습니다.
수집은 이디스커버리 수행 과정에서 증거 자료를 작성하는 첫 단계입니다. 수집된 모든 문서가 증거가 되는 것은 아니지만, 검토의 대상이 되며 추후 프로덕션에까지 영향을 미칩니다.
Forensic copy, Logical copy 그리고 Targeted collection
포렌식 이미지는 변경되지 않은 전자정보의 사본 자체를 의미합니다. 이미지 파일은 일부 파일, 혹은 전체 하드드라이브 전체를 포함할 수 있습니다. 크게 포렌식 사본, 논리적 시본, 타깃 수집 3가지로 분류할 수 있는데, 목적에 따라 적절하게 수행하지 않는 경우 증거의 유효성을 인정받을 수 없기 때문에 적절한 방법과 절차, 프로세스를 준수해야만 증거 위/변조나 프로세스 위반으로 인한 문제 발생을 최소화 할 수 있습니다.
- 포렌식 카피(Forensic Copy): 이디스커버리 컬렉션에서 가장 일반적인 방법으로 대상 데이터 드라이브 혹은 저장장치 전체를 원본과 100% 동일한 형태로 복제합니다. 활성 파일에 할당되지 않는 부분까지 전체 드라이브의 비트스트림 혹은 비트 단위 복사본을 생성해 기존에 삭제된 데이터나 숨겨진 파일까지 포함하며, 해시값 등 메타데이터 등의 정보도 포함합니다. 생성을 위해서는 Encase, FTK Imager 등과 같은 전문 소프트웨어가 필요하며 전문가가 작업을 수행하는 것이 일반적입니다.
- 논리적 카피(Logical Copy): 드라이브 내의 ‘활성 데이터’를 캡처 및 수집하는 방식으로, 기존에 삭제된 파일이나 숨겨진 파일은 복제되지 않습니다. 드라이브에 포함된 일부 정보만 추출해 활용하는 경우 적합하며, 일반 사용자들도 쉽게 작성할 수 있습니다.
- 타깃 수집(Targeted Collection): 소송에 필요한 파일과 문서를 정확히 알고 있는 경우, 선택적으로 해당 파일과 관련 정보만 복제할 수 있습니다. 이런 경우 콜렉션에 소요되는 시간과 비용을 대폭 절감할 수 있습니다.
포렌식 사본(Forensic Copy)과 논리적 사본(Logical Copy), 타깃 수집(Targeted Collection)의 활용에 대한 다양한 논의가 있습니다. 일부 전문가들은 민사소송에서는 논리적 사본만으로도 증거의 요건을 충족할 수 있다고 말하지만, 중요한 데이터가 삭제된 경우나 데이터의 위/변조가 의심되는 경우가 생겼을 때는 적절한 방어권을 행사할 수 없습니다.
*관련해 방어권을 행사하지 못해 제재를 받은 예는 Leidig v. Buzzfeed, Inc., 16 Civ. 542 (VM) (GWG), 2017 WL 6512353, at *7 (S.D.N.Y. Dec. 19, 2017). 에서 확인할 수 있습니다. 원고는 적절한 시점에 소송 관련 증거를 생성하지 못했으며, 이를 입증하는 메타데이터가 증거에 포함되었습니다. 또, 다른 증거자료의 메타데이터는 누락되었습니다. 원고는 ESI 관리에 실패하는 등 데이터 보존 의무를 지키지 못해 제재를 받았습니다.
수집 주체의 결정
데이터 수집 형태에 따라 수집의 주체가 달라질 수 있습니다. 데이터 수집 범위가 적고, 간단한 경우에는 소송 대상자가 직접 수집하는 것이 더 적절하고 비용 효율적일 수 있습니다. 그러나, 비전문가가 전문적인 방법이 아닌 일반적인 방법으로 파일에 액세스 하는 것만으로도 해시값 등 메타데이터가 변경될 수 있으므로, 법정에서 프로덕션의 유효성에 대한 논쟁이 발생할 수 있으므로 충분한 고민이 필요합니다. 컬렉션의 주체를 결정할 때 아래의 체크리스트를 확인하면, 어떤 방식이 효율적일지 파악할 수 있습니다.
l 소송 관련 문서의 분량
l 소송 관련 데이터 소스의 수, 접근 가능한 범위
l 암호화되거나 민감한 데이터들의 존재여부
l 데이터 수집을 수행/지원할 수 있는 내부 IT 리소스 존재여부 (사람/시스템)
l 컬렉션 일정(Production 마감일, Preservation 일정)
l 콜렉션의 형태(Forensic/Logical/Targeted)
Custodian의 수가 많거나, 수집해야 할 데이터의 규모가 큰 경우, 또 분쟁의 여지가 많은 경우, 암호화 된 데이터 등 처리가 복잡한 경우, 그리고 콜렉션의 형태에 따라 자료 수집의 주체가 달라질 수 있습니다.
- Custodian 자체 수집
소송 관련자(Custodian)가 직접 소송 관련 파일을 수집하는 방법입니다. 전문가들은 소송관련자들이 대부분 기술적으로 숙련되어 있지 않아 수집 과정이 원활하지 않을 수 있고, 중요한 문서를 고의 또는 실수로 누락할 가능성이 있다는 점을 경고합니다. 일부 법원에서도 Custodian이 소송 관련자임을 고려할 때 당사자들에 의해 수집된 자료가 ‘법적으로 문제가 되지 않는지’에 대해 의문을 제기한 경우가 있기 때문에 주의가 필요한 방법입니다. Custodian이 매우 적은 양의 데이터를 가지고 있거나, 중요하지 않은 자료인 경우에 한해 소송 당사자와 판사가 사전 협의한 경우에는 이 방법이 유효할 수 있으며, 비용 효율적인 대안이 됩니다. - 사내 IT전문가에 의한 컬렉션
사내 IT전문가는 소송 컨트롤타워인 법무담당 부서의 지시에 따라 컬렉션 업무를 수행할 수 있습니다. IT전문가는 사내에서 관리되고 있는 데이터들의 처리 및 스토리지 관리에 관여하고 있으며 관련 지식과 전문성을 보유하고 있기 때문에 컬렉션을 수행하는데 적합하다고 할 수 있지만, 익숙한 업무가 아니기 때문에 구체적인 지침 및 지속적인 관리가 필요합니다. 일반적으로 사내 IT 관련 리소스가 많지 않기 때문에 데이터를 수집하는데 시간이 오래 소요되며, 본연의 업무에 지장을 줄 수 있다는 점은 단점입니다. 또한, 법무팀의 지침과 다른 매우 광범위한 컬렉션이 진행될 가능성도 적지 않습니다. 그럴 경우 수집된 데이터의 양이 증가하고, 이를 처리 및 분석하는 시간과 비용도 증가하게 됩니다. 전체적인 이디스커버리 비용 증가의 원인이 될 수 있습니다. - 외부 전문가에 의한 컬렉션
사내 IT 리소스가 충분하지 않은 조직이나, 확실하게 법적 정당성을 확보하고 싶은 기업의 경우에는 내부인력이 아닌 외부 전문가를 고용해 데이터 콜렉션을 수행합니다. 외부 전문가들은 이디스커버리에 숙련된 전문가로, EDRM 프로세스를 철저하게 준수하며 작업을 수행합니다. 외부 전문가에 의한 컬렉션은 상대적으로 많은 비용이 소요되지만, 잘못된 컬렉션으로 인해 발생할 수 있는 증거의 오염이나, 절차상의 문제 등 소송에 부정적인 영향을 줄 수 있는 요소들을 사전에 차단할 수 있기 때문에 많은 기업들이 이 방법을 선택하고 있습니다. - 원격 컬렉션
사내 데이터가 클라우드나 중앙 집중화된 통합 시스템으로 관리되는 경우에는 관련자료들을 시스템상에서 원격으로 수집할 수 있습니다. 이 경우에는 IT전문가가 수집을 수행할 수 있지만, 시스템화 되어 있기 때문에 기존의 방법보다 훨씬 빠르고 효율적인 작업이 가능합니다. 고도화 된 시스템은 자체적으로 검색 및 분석 기술을 적용해 대상화 된 컬렉션을 지원합니다. 많은 전문가들은 소송을 많이 진행하는 대기업의 경우, 일관된 데이터 처리 기준 및 수집 기준을 가진 시스템 구축이 가장 효율적인 방법이라고 주장합니다.
컬렉션 검증
컬렉션은 소송 당사자간 논쟁을 유발할 수 있습니다. 컬렉션 과정에서 선의로 업무를 수행하지 않았다는 사실이 드러났거나, 수집된 데이터가 원본에서 변경되었다는 추론이 가능한 경우에는 증거의 유효성에 대한 분쟁 대상이 됩니다. 이에 대비하기 위해 컬렉션 진행시 법적 절차를 지켰다는 것을 증명하기 위한 몇 가지 매커니즘이 있습니다. 담당자는 추후 분쟁 발생에 대비하기 위해 이러한 절차를 준수하는지 모니터링하고 기록해야 합니다.
- Chain of Custody
Chain of Custody는 수집대상물이 원본과 동일한 상태로 보존되었음을 증명하는 문서입니다.컬렉션 시점부터 자료 보유자, 자료의 취급자, 자료의 이동, 위치 등에 대한 논리적, 물리적 정보들을 철저히 기록해야 데이터의 신뢰성을 확보할 수 있습니다. - Hash value
‘디지털 지문’이라고도 불리는 해시값은 각 컴퓨터 파일과 관련된 암호화 코드로 고유한 값입니다. 파일 내용이 변경되면 파일의 해시값도 변경되어 파일이 이전과 동일하지 않음을 알 수 있습니다. 데이터 수집 전 후의 해시값을 비교하면, 위변조의 가능성을 손쉽게 확인할 수 있습니다. - Audit
사용자의 활동을 추적하는 보안 시스템에서 자동 생성된 코드로 시간 순서에 따라 로그인 정보, 파일 접근, 기타 활동 내역 등이 기록됩니다. 자료의 수집 시점, 수집된 데이터의 양, 시스템 사용 자원 등에 대한 상세한 내용이 포함되어 컬렉션 과정에서 법적 위반사항이 발생했는지 확인할 수 있습니다.