
eDiscovery A – Z eDiscovery Book
Processing & Hosting
프로세싱은 컬렉션을 통해 수집된 데이터들을 원활한 검색 및 검토가 가능하도록 처리하는 과정입니다. 컬렉션으로 수집된 자료들은 방대합니다. 소송과 관련 없는 파일들이 섞여 있을 수도 있고 중복된 파일들이 존재할 수 있으며 암호화된 파일, 이미지나 PDF 등 별도의 처리 없이는 전자적으로 검색이 불가능한 파일 형식들이 포함되어 있을 수도 있습니다. 이러한 파일들을 솎아내고, 골라내고, 처리해 원활한 리뷰 및 프로덕션이 진행될 수 있도록 하는 것이 프로세싱의 목적입니다.
데이터를 필터링 및 프로세싱 하면 리뷰해야 할 데이터의 양을 가늠할 수 있습니다. 이를 통해 시간 및 비용 등 소송에 소요될 자원들을 예측하고 대응할 수 있으며, 일정 및 예산에 따라 유동적으로 조절할 수도 있습니다.
프로세싱은 이디스커버리 전문가에게 맡겨야 합니다. 이디스커버리 전용 플랫폼을 활용하기 때문에 해당 부분에 역량 및 경험을 보유한 사람만이 제대로 업무를 수행할 수 있습니다. 리뷰 및 프로덕션의 기초가 되는 작업이기 때문에, 프로세싱에서 오류가 발생한다면 이어진 절차에서도 문제가 발생할 수밖에 없으며 다시 프로세싱을 하는 경우 많은 시간과 비용이 소요될 수 있습니다. 이디스커버리 과정에서 데이터 처리가 잘못되는 경우, 법원 및 조사 기관에서 처벌(Sanction)을 받을 수 있으며 최대 패소 등의 엄격한 법적 조치의 대상이 될 수 있는 만큼 프로세싱 중에서도 지속적인 QC(Quality Check)가 이뤄져야 합니다.
데이터 컬링: 컬렉션을 통해 가져온 문서 전체에서 시스템 파일이나 프로그램 파일, 유저가 생성하지 않은 비활성 파일을 제거한 후 소송과 관련이 있는 변호사들의 리뷰가 필요한 문서들만 남기는 작업입니다. 데이터 필터링을 통해 처리해야 할 대상 문서의 볼륨 및 수를 줄여 리뷰에 소요되는 시간 및 비용을 절감할 수 있습니다.
데이터 베이스 구축 및 업로드 : 컬링된 데이터들을 이디스커버리 전문 플랫폼에 업로드합니다. 업로드 된 데이터들은 케이스별로 구축된 데이터베이스 및 가상환경(private cloud)에서 관리됩니다.
데이터 처리: 이디스커버리 플랫폼에 업로드 된 문서에서 텍스트 추출하는 작업입니다. 압축파일을 해제해 개별파일로 만들고, 첨부파일 및 삽입된 개체들을 모두 분리합니다. 이미지와 같이 읽을 수 없는 파일은 OCR등 별도의 처리를 거쳐 문서화합니다. DRM(암호화된 파일) 해제도 진행합니다.
인덱싱: 텍스트의 위치 정보를 파악하는 작업으로 리뷰 및 프로덕션 단계에서 변호사 등이 자료를 원활하게 검색할 수 있도록 처리하는 과정입니다. 인덱싱 작업을 진행해야만 처리된 대량의 문서에서 특정 단어, 또는 단어로 구성된 복합적인 키워드 검색이 가능해지며 문서 검토 작업이 원활히 이루어질 수 있습니다..
데이터 컬링
프로세싱 단계에서 맨 처음 하는 일은 리뷰가 필요 없는 데이터들을 솎아내는 작업입니다. 처리해야 할 대상 문서가 적어질수록 작업 속도는 빨라지고 비용은 감소합니다. 전문가들 불필요한 파일들을 지우기 위해 아래와 같은 컬링 작업을 거칩니다.
- DeNISTing – ‘DeNISTing’은 미국 표준기술연구소(National Institute of Standards and Technology)의 가이드라인에 따라 시스템 파일, 프로그램 파일, 설치 드라이버 파일, 악성 소프트웨어 등 기타 비사용자 생성 파일을 컬링하는 업계 용어입니다.
- 날짜 필터링 – 소송과 관련된 기간 이전 또는 이후에 작성된 문서들을 제거하는 작업입니다. 소송과 관련된 기간을 특정할 수 있을 때 활용합니다. 전체 Custodian 대상 수집된 자료들에 단일 날짜 필터를 적용할 수 있습니다.
- 파일 유형 필터링 – 파일 유형 필터링은 파일 확장자(예: .PDF, .JPG, .WAV .HWP) 또는 파일 헤더(예 : DLL 파일) 기반으로 처리할 수 있습니다. 소송과 관련이 없을 것이 확실한 파일 확장자가 있다면 제거할 수 있습니다. 예를 들어 개인의 음악, 비디오 등의 멀티미디어의 경우는 다른 형식보다 용량이 매우 큰 편이기 때문에 제거하면 전체 데이터의 볼륨을 줄이는데 매우 효과적일 수 있습니다.
- 이메일 도메인 필터링 – 명확하게 소송과 관련이 없는 것으로 판단되는 도메인 (예: @shopping.com)과 관련된 모든 메시지들도 제거할 수 있습니다.
이외에도 프로세싱 전문가들은 경험 및 역량을 기반으로 다양한 방식의 데이터 컬링 작업을 수행할 수 있습니다.
데이터 베이스 구축
컬링된 파일을 데이터베이스에 업로드합니다. 로보카피를 통해 메타 데이터를 비롯한 문서 정보를 보존해 원본성 및 무결성을 확보해야 합니다.
데이터 처리
데이터베이스에 업로드 된 자료에서 텍스트를 추출하는 과정입니다. 통일성 있는 처리를 위해 전체 문서의 타임존을 통일하고, 압축을 해제하고, 삽입된 개체들을 분리합니다. 데이터 처리 과정에서 하나의 파일이 2개 이상이 될 수 있기 때문에 처리 이전의 데이터 볼륨보다 증가할 수 있습니다.
- ECA 프로세싱(early case assessment) – 파일에서 텍스트만 추출해 인덱싱해 네이티브 프로세싱이 필요한 파일들을 가려내는 작업입니다. 전체 문서를 네이티브 프로세싱하면 시간 및 비용이 많이 발생할 수 있기 때문에 데이터 처리 첫 단계에서 ECA 프로세싱을 수행해 데이터 볼륨을 줄일 수 있습니다.
- 프로덕션 타임존 – 국제소송의 경우 시간대가 다른 두 곳 이상의 장소에서 생성된 문서가 존재할 수 있습니다. 시간대가 다른 타임스탬프가 변호사 및 판사에게 혼란을 줄 수 있으므로, 시간대를 표준화하는 작업이 필요합니다. 프로덕션 타임존은 프로덕션이 제출될 법원 및 조사기관의 시간대를 따릅니다.
- 압축파일 해제 – .ZIP 및 .PST 파일과 같은 압축파일을 해제합니다. 압축파일은 내부 데이터 검색이 불가하기 때문에 개별화해야 합니다. 이 과정에서 프로세싱 이전보다 데이터 볼륨이 증가할 수 있습니다.
- OCR – 광학 문자 인식(OCR)은 이미지를 검색 가능한 텍스트로 변환하는 기술입니다. 사진, 설계도면, 손으로 쓴 글씨 등 일반 문서 등을 스캔한 이미지 등 검색할 수 없는 파일들을 검색 및 처리가 가능한 전자적 형태로 변환할 수 있습니다.
- 임베디드 오브젝트 추출 – 첨부파일, Word나 excel등 개별 문서에 삽입된 그림, 테이블과 같은 임베디드 오브젝트를 추출합니다. 이는 별도의 데이터베이스로 관리하며 원본파일과 분리된 개체 간에 관계(parents – child)는 유지됩니다.
- de-duplication – 중복된 데이터를 해쉬값(Hash Value)를 기준으로 Custodian의 우선순위에 따라 하나만 남기고 다른 사본들은 제거하는 작업입니다. 다양한 Custodian으로부터 수집된 데이터들의 경우 공통된 사본이 다수 존재할 수 있습니다. 1) 대상 문서 전체에서 중복을 제거하는 Global de-Duplication과 2) 대상자 개인이 가지고 있는 문서 내에서 중복을 제거하는 Custodian de-Duplication으로 구분할 수 있습니다.
- DRM 해제 – 일부 기업의 경우 자체적으로 생성된 모든 문서가 암호화 되어 관리됩니다. 암호화 된 문서들은 별도의 전처리 과정을 통해 암호화 해제 후 처리 및 플랫폼에 업로드 해야 합니다.
데이터베이스에는 손상된 파일, 암호화로 해제가 불가능한 파일, 소프트웨어의 지원이 불가한 파일, 깨져 열리지 않는 압축파일 등 처리할 수 없는 데이터가 포함되어 있을 수 있습니다. 처리되지 않은 파일은 예외로 기록해 별도로 관리해야 합니다. 프로세싱 과정에서 발생한 모든 예외사항에 대해서는 전체 파일 경로, 파일 이름, 해시 값 및 설명과 같은 자세한 정보를 기록해 디스커버리 제외(exception) 리스트로 법원 및 조사기관에 제출됩니다.
인덱싱
데이터의 속성과 위치 정보를 기록하는 것으로, 데이터에 이름, 크기 등의 속성과 그 기록장소를 표시하는 태그를 붙이는 작업입니다. 인덱싱이 완료되면 문서 작성자, 문서 번호, 날짜, 제목 및 문서유형을 포함해 문서 내부에 포함되어 있는 특정 단어나 특정 단어가 포함된 키워드를 손쉽게 검색할 수 있습니다. 추후 데이터 검색 및 리뷰를 위해 꼭 필요한 작업입니다.
쉽게 말해 인덱싱은 전체 문서에서 모든 단어를 가져온 다음 알파벳 순서 등 기준에 따라 정렬된 단어 목록을 생성하는 것입니다. 이를 마스터 인덱스라고 하는데, 텍스트 뿐 아니라 메타데이터 필드 등도 포함될 수 있습니다.
프로세싱 과정에서 국내 기업이 유의해야 할 점
각 나라마다 IT환경의 특성이 다르기 때문에 프로세싱 과정도 차이가 있을 수 있습니다. 국내 기업의 데이터를 프로세싱 할 때 주의해야 할 부분은 아래와 같습니다.
1) 한국어로 된 파일 등의 처리 오류
2) 한국에서만 사용되는 확장자들의 분석
3) DRM(문서보안솔루션), VDI(가상 데스크탑 환경), 전자결재 시스템, 공용폴더, 사내 메신저 등 일부 기업에서 도입하고 있는 IT보안툴의 분석
이디스커버리 프로세싱 플랫폼이 대부분 미국에서 개발되었기 때문에 한국 등 아시아 국가의 언어 및 확장자 분석에 취약할 수 있습니다. 파일 깨짐, 왜곡 등의 인코딩 이슈가 발생할 수 있기 때문에 QC체크를 통해 지속적으로 오류를 확인하고, 문제가 생겼을 경우 재처리 해야 합니다. 프로세싱을 진행하기 전에 한국어 및 국내전용 확장자의 처리가 가능한지 확인하면, 재처리에 소요되는 시간 및 비용을 절감할 수 있습니다.
또, 국내 기업에서 자체적으로 구축하고 있는 IT보안 환경에서 생성된 문서들은 대부분 암호화 처리되어 있어 프로세싱 플랫폼에서 처리할 수 없습니다. 이럴 경우 무결성 및 원본성을 유지한 채 DRM을 해제해 플랫폼에
업로드 하는 과정 등이 추가로 필요한데 내부 IT팀 관계자 및 엔지니어가 함께 수행하는 작업으로 적지
않는 리소스가 투입됩니다. 관련 경험이 많은 숙련된 엔지니어와 작업하면 이 소요되는 시간 및 비용을
최소한으로 단축할 수 있습니다.
데이터 호스팅
프로세싱이 완료된 문서들을 저장 및 관리하는 과정을 ‘호스팅’이라고 합니다. 데이터 호스팅은 프로세싱이 완료된 후부터 소송이 완전히
종료될 때까지 유지됩니다.
소송 관련 자료들은 회사의 영업기밀 등 민감한 정보가 포함된 경우가 많습니다. 소송 중에 발생할 수 있는 중요 정보의 유출 가능성을 차단하기 위해 관련 데이터들은 확실하게 안전한 곳에 호스팅 해야 합니다. 전문 호스팅을 진행하는 업체들은 최고의 보안 인증을 받은 전문 센터를 운영하고 있으며(IDC), 사용자 및 역할에 따라 권한을 다르게 부여해 차별화된 접근 제어를 수행합니다. 또, 리뷰 등 후속 업무 진행 시 대용량의 데이터들을 빠르고 효율적으로 처리할 수 있도록 고성능의 서버 등 인프라를 갖추고 있습니다. 안정적인 호스팅 유지를 위한 조건은 아래와 같습니다.

■ 물리적 스토리지 관리, 사용자 접근, 네트워크 및 데이터 보안에서 최고 수준을 유지
■ 리뷰 및 분석, 프로덕션을 과정에서 원활한 업무 수행이 가능하도록 높은 데이터 처리 성능을 제공
■ 데이터 백업 및 재해 복구(DR)가 가능한 시스템 관리
■ 소송이 많은 기업들을 위해 다중 데이터 베이스 관리 등 각 기업에 최적화 된 호스팅 서비스 지원.
■ 케이스마다 별도의 DB생성, 접속권한을 부여
■ 데이터베이스 접근 및 디스커버리 플랫폼에 로드되어 처리된 활동 로그 기록 보관
또, 개인정보가 포함된 자료들이나 국가에서 핵심기술로 분류해 관리하는
자료들의 경우에는 국내 개인정보보호법 준수, 국가 핵심기술 수출 승인 절차 등 국내법에 따라 처리해야
합니다. 이 경우에는 모든 데이터의 수집, 처리, 호스팅 전 단계는 국내 영토 내에서 이뤄져야 하며, 법정 혹은 조사기관에
제출될 데이터만 해외로 반출할 수 있습니다.
프로세싱을 제대로 하면 이디스커버리에 투입되는 시간 및 비용을 효과적으로 관리할 수 있습니다. 프로세싱 된 데이터는 오랜 기간 서버에 호스팅 되며, 리뷰 및 프로덕션의
대상이 됩니다. 리뷰에 투입되는 비용은 이디스커버리 전체 비용의 70%에
이르며, 자료를 계속 호스팅하는데 소요되는 비용도 적지 않습니다. 정확한
필터링 및 프로세싱을 통해 리뷰 대상 문서의 볼륨을 줄일 수 있다면 후속 과정에 소요되는 시간 및 비용도 함께 감소합니다.