빅데이터 보안 빅데이터

빅데이터가 화두로 떠오르니까

자연스레 보안 쪽에서도 빅데이터 보안이 중요하다고 합니다.

보안 (R&D) 은 원래 뜨는 분야에 쫓아 들어가서 

이런 저런 보안 문제가 있으니 해결해야 된다는 식으로 접근하기는 합니다.

현실의 보안 문제도 산적해 있긴 하지만..

빅데이터 보안이 뭔지 간단히 정리해 봅니다.
 
(사실 2012년 4월에 만들어논 자료를 요약 한건데..

요거 ->  big_data_security.pdf  를 보실 분들은 아래 내용을 별루 안보셔도 될 듯 합니다. ^^)

  • 빅데이터의 특성
 다 아는 내용일테지만 간단히 짚고 넘어가면.. 

- 대용량 -> 분산/병렬 처리가 필요하다. 당연하죠

  예를 들어 930GB의 텍스트 파일을 스캔해서 특정 단어가 포함된 라인을 찾아내는

 unix grep 명령을 실행하면 13일 정도가 걸리는데..

 이걸 하둡을 이용해 1764개의 노드로 분산해서, 노드당 8개 thread로 돌렸더니

   150초면 되더라.. 

 
- 비정형 => 비정형 데이터를 저장하기위한 저장구조와 비정형 데이터를 위한 분석 기술이 필요하다.
 
 RDB에 딱 들어있는 깔끔한 정형적 정보도 있지만, 

 텍스트, 그림, 동영상, 음성/음악 등 (사용자) 저작물은 완전 비정형 구조

         위치좌표 이동 경로, 각종 센싱 데이터 등은 어찌보면 정형이라고 볼 수 있죠
              

빅데이터 보안은  크게 보면 시큐리티 FOR 빅데이터 와   시큐리티 BY  빅데이터로 나눠 볼 수 있습니다. 

  • 시큐리티 BY 빅데이터
빅데이터 기술을 이용해서 보안을 강화한다는 것이죠.. 
빅데이터 기술이 필요한 보안 문제들은 다음과 같습니다. 

- Correlation of threat data across multiple enterprises.
- Security policies that roam with the user as they move among networks
  we don’t own or control.
- Inter-platform correlation of data 
- Seeking patterns of abnormal behavior from volumes of data from monitored 
  transactions.
- Building more accurate models and heuristics of malware and malicious 
 activity based on broad visibility and having more computing power 
 to perform the analysis
- Community-based malware detection.
- Real-time ‘reputation services’ that correlate information across multiple 
 logical entities simultaneously – for example, IP addresses, 
 user identities, URLs, email and file objects.
- Massively parallel static analysis of source code and binaries 
 looking for vulnerabilities

뭐 과감히 패스해 주시고..

크게 보면 2가지 입니다.

- 모든 로그나 패킷을 모아서 분석해서  
거기서  사이버 공격이나 데이터 유출 패턴을 찾는다.


=> 이걸루 APT공격두 막는다고 합니다.  

자세한 내용은 http://ettrends.etri.re.kr/PDFData/28-3_019-029.pdf  요걸 봐주세요.
- 거래 기록, 로그, 주변 상황, 그 사람 인맥 등을 분석해서 각종 (카드, 보험) 사기를 탐지한다. 

대용량 데이터를 분석해서 이상패턴을 찾는다는 점  (anomaly detection)은 동일하죠

  • 시큐리티 FOR  빅데이터 
한마디로  빅데이터도 보호해야할 데이터이니 데이터 보안에 관련된 얘기입니다. 

그전에 얘기하던 데이터보안이랑 뭐가 다르냐.. 본질적으론 그닥 다를 바 없습니다. 

암호화, 접근제어, 침입방지.. 같은 건 대용량 분산 시스템에서

이걸 어떻게 할거냐
의 이슈 정도가 있는데..

요새 많이 얘기되는 클라우드 보안과도 같은 얘기라 할 수 있습니다.

- 접근 제어 측면에서는 수많은 주체의 데이터가 모이는 만큼 

그 데이터에 접근하는 사람도 많고 이럴때
 어케 잘 접근제어를 할거냐 정도의 이슈가 있습니다. 
 데이터 신뢰성 유지.. 등등의 문제가 있고. 

- 개인정보보호
    
빅데이터= 빅브라더 이런 얘기가 많이 나오니까, 프라이버시 관련 언급이 많은데요 
암호화 데이터 연산, 프라이버시 보존형 데이터 마이닝 요로한 기술 들입니다. 

한마디로 빅데이터를 수집해서 갖고 있는 측과  분석하는 측이 따로 있을 때, 

분석하는 측으로부터 프라이버시를 보호하는 기술이 되겠습니다. 
정부의 빅데이터 공개 (=> 민간 분석업체에) 등에는 유효하겠지요.. 

관련 기술들은 KISA에서 잘 정리해 놓았습니다.  


위 자료에서  표하나 인용합니다. 

 

이런 기술들을 적용하려면 빅데이터 수집 분석을 할 조직은 

이런 기술을 도입해야 한다는 "규제"가 필요할 것 같습니다. 
       사실 지금의 개인정보  빅브라더 문제는 모르는데서, 내 정보가 마구 수집되고 분석되서

내가 생각치도 못한 혹은 나도 모르는 

내 정보가 드러나고 이용되고 있다는 거 아닌가 싶습니다. 

이런거 분석하는 넘들이 

나 이런거 수집해서 분석한다고 자랑하면서 나를 규제해 주십시오 하면서 

하진 않을 텐데 말이죠..

저희는 이런 문제에 대한 고민과 대응을 하고 있습니다. 

=> 그 내용은 다음에 포스팅하겠습니다. 



핑백

  • Something odd : 빅데이터 개인정보 보호 - 위협 2013-07-23 10:44:33 #

    ... 빅데이터 보안을 간단히 정리한 글 ( http://decisive.egloos.com/5750229 )에 이어 시큐리티 FOR 빅데이터의 중요 타픽인 개인정보보호에 대해 써봅니다. 우선, 개인정보보호 대 ... more

덧글

댓글 입력 영역