By Process Processing
수집된 전자정보의 용량을 줄이고, 필요에 따라 종이 문서(하드카피)를 전자정보(파일)로 변환하는 과정을 거쳐 검토 및 분석에 보다 적합한 형태로 만드는 과정을 말합니다. 일반적으로 수집된 데이터 중에는 시스템 파일이나 단순한 웹페이지 소스코드처럼 분석이 불필요한 데이터, 중복된 데이터, 압축되어 있거나 전자적으로 분석할 수 없는 상태로
별도의 처리가 필요한 데이터들이 존재합니다. 이러한 데이터들을 검색 및 처리가 가능 한 데이터로 가공하는 단계입니다.
-
de-NISTing
수집된 데이터 중 시스템 파일, 프로그램파일, 설치 드라이버 파일 등 분석이 필요 없는 시그니처 파일을 제거하는 과정을 의미합니다. 이를 통해 처리해야 할 데이터의 용량을 최소화하고, 검토할 문서의 양을 줄일 수 있습니다.
제거의 대상이 되는 파일은 미국표준기술연구소(National Institute of Standards and Technology)의 가이드라인을 따르며, 단순히 파일 타입에 따라 필터링 하는 것이 아니라 SHA-1, MD5 등 해시값 비교를 통해 작업을 수행합니다.
-
OCR
사진, 설계도면, 손으로 쓴 글씨 등 일반 문서 등을 스캔한 이미지를 검색 및 처리가 가능한 전자적 형태로 변환하는 기술입니다. 이미지 파일에서 텍스트만 인식, 추출해 다른 전자문서 등과 함께 처리할 수 있습니다.
요즘 대부분의 자료는 전자적으로 생성되고 저장되지만, 일부 문서는 여전히 종이나 그림의 형태로 남아있습니다. 이러한 수집 대상물을 전자적 으로 처리 가능한 형태로 가공, 변환하는 작업입니다.
-
de-Duplication
흔히 DeDup이라고 부르는 중복 데이터 제거 단계입니다. 분석이 필요한 대상 문서에서 중복된 문서들을 해쉬값(Hash Value)를 기준으로 우선순위를 정하여 하나만 남기고 제거하는 기능으로 1) 대상 문서 전체에서 중복 문서를 제거하는 Global de-Duplication과 2) 특정 대상자의 문서에서 중복문서를 제거하는 Custodian de-Duplication으로 구분됩니다.
de-Duplication 과정에서는 이메일의 첨부파일이나 문서 안에 삽입된 개체(Embedded Object)의 중복 여부를 확인하는 것이 가장 중요합니다. 프론테오는 다양한 경험을 통해 집약된 노하우로 데이터 처리 상황에 알맞은 방식을 추천합니다.
-
Indexing
Review/Production 단계에서 변호사 및 법률전문가들이 자료를 원활하게 검색, 분석할 수 있도록 색인하는 작업입니다.
인덱싱 작업을 진행해야만 처리된 대량의 문서에서 특정 단어, 또는 단어로 구성된 복합적인 키워드 검색이 가능해지며 문서 검토 작업이 원활히 이루어질 수 있습니다.