본문 바로가기

박군이 선정한 기사

네 번째 기사<빅 데이터, 목표가 아니라 하나의 수단일 뿐>

네 번째 기사입니다.

이사짐을 싸야하는 상황 때문인지는 모르겠습니다만 오늘은 간단한 이 기사가 마음에 들었습니다.


오늘의 업로드 포멧도 동일합니다.

1. 기사는 링크를 건다.

2. 기사의 모르는 뜻을 개략적으로 적는다.

3. 개인의 의견을 1줄로 적는다.


시작해보겠습니다.



*뉴스

[기사 링크 : http://www.boannews.com/media/view.asp?idx=48119]



**모르는 단어

사실 오늘은 모르는 단어가 없는 매우 심플한 기사입니다.

빅데이터를 모르는 분은 요즘들어선 없겠죠.


물론 세밀한 차이는 있겠습니다만

말 그대로 거대한 데이터의 집합입니다.


간단히 이야기하면 뭐 페이스북이나 트워터처럼 하루에 수십만~억단위의 텍스트,이미지,오디오,영상 데이터를 업로드해내는 이 데이터들...

빅데이터 얻는 방법은 정도의 차이가 있겠습니다만

예를 들어 요즘 사람들이 언급하는 단어중에 뭐가 가장 많이 쓰이는지 알고싶어서 사람들이 SNS에 올리는 텍스트만 모아본다해도 엄청난 양이 될겁니다.

그런게 빅데이터죠



**박군의 의견

"제가 말하고 싶은 내용은 저 기사와 동일합니다. 제 주위에는 빅데이터를 무슨 마법의 아티팩트로 여기는 사람은 없지만(물론 연구하시는 분은 그렇게 느끼실지도 모릅니다...) 빅데이터는 거기서 어떤 의미를 도출해 내느냐가 가장 중요하겠죠. 책을 왕창 모아놓는다고 뭐가 되겠습니까? 읽고 분류하고 거기에서 필요한 내용을 발췌해야 의미가 있는거죠. (이해가 쉽죠?)"


"또 한가지 하고 싶은 이야기는 저 역시도 통계를 바라보는 시선이 그릇되어 있었음을 말하고 싶었습니다. 사실 통계에 관심을 둔 적이 없습니다. 그래서 표본은 그냥 데이터중에 선정한다고만 압니다. 그래서 표본이 무조건 많아야 데이터 분석의 결과가 신빙성이 있다. 라고 생각해왔습니다.

그러나 수만의 데이터에서 분석한 결과에서 거의 비슷한 패턴을 집합화 할겁니다. 그걸 하나의 표본이라 볼 때 50개 혹은 100개의 표본을 선정했다 가정해봅시다.

우리가 그 결과를 보고 고작 100개 조사한걸로 받아들이면 곤란한 거겠죠.

분석한 사람은 매우 빡칠겁니다(확신합니다) 결론은 까고싶다면 내용을 자세히 알아보는 것이 먼저다(?? : 응? 뭔가 이상하다 / ??? 아...아냐!)"