데이터 분석을 위한 첫걸음, 데이터 유형별 특징 파악하기_빅데이터사이트
데이터에 대한 이해 없이는 분석을 시작할 수 없다!빅데이터 세상에 살고 있는 우리는 수많은 데이터들과 함께 만납니다.빅데이터사이트따라서 성공적인 데이터 분석을 위해서는 데이터가 어떤 특징을 가지고 있는지,데이터에 대한 이해가 반드시 필요합니다.왜냐하면 분석하는 데이터의 종류에 따라 사용하는 분석 도구,접근 방법이 모두 다르기 때문입니다.오늘은 데이터를 파악하기 위한 기준으로 데이터 저장 구조에 따라 분류되는데이터 유형에 대해 설명드리고자 합니다!데이터 유형 알아보기 (정형 데이터/https://www.sinarharian.com.my/search/빅데이터사이트반 정형 데이터/비정형 데이터)데이터는 구조에 따라 정형/반 정형/비정형 데이터로 구분할 수 있습니다.1. 정형 데이터정형 데이터는 구조화된 데이터로 미리 지정된 구조에 따라 저장된 데이터라고 볼 수 있습니다.보통 테이블 데이터 형태를 가지고 있는데, 우리가 흔히 사용하는 엑셀 형태라고 생각하면 쉽습니다.위 사진은 5명의 학생들의 학번, 이름, 성별을 적어둔 엑셀 표 테이블입니다.해당 표는 3개의 열(학번, 이름, 성별)에 대한 5개의 행(학생 5명)의 데이터가 들어있습니다.우리가 새로 전학 온 학생의 데이터를 추가할 때는 이미 지정된 양식에 맞게 새로운 학생의 학번, 이름, 성별을 추가하게 됩니다.그렇게 되면 3개의 열에 대한 6개의 행의 데이터가 들어있는 표 테이블 형태로 바뀌게 될 것입니다.이와 같은 정형 데이터는 미리 지정된 형식과 구조에 따라 저장되도록 구성됩니다.표 테이블 데이터의 경우 검색이나 편집, 삭제 등 사용자가 데이터를 다루기에 비교적 쉽습니다.또한 데이터 형태가 일정하기 때문에 연산을 수행하기도 용이합니다.따라서 많은 기업들이 자사의 데이터를 테이블 형태로 DB에 적재하여 일반적으로 사용하고 있습니다.하지만 정형 데이터는 저장 방식이 정해져 있기 때문에, 웹사이트 데이터나 음성 및 이미지 등명확한 구조를 정의하기 어려운 데이터들을 저장하기에는 한계가 있습니다.2. 반 정형 데이터반 정형 데이터는 구조에 따라 저장된 데이터이지만 정형 데이터와 달리데이터 내용 안에 구조에 대한 설명이 함께 저장되어 있습니다.즉, 데이터가 표 테이블 형태로 되어있지 않지만 일정한 규칙 아래 칼럼과 값이 모두 존재하는 형태를 의미합니다.보통 html이나, xml, json이 대표적인 예시로 웹 로그나 센서 데이터들이 주로 저장되어 있습니다.현재 창에 여러분들이 사용하는 키보드의 F12 버튼을 누르면,개발자들이 웹 페이지를 제작할 때 사용되는 HTML 문서를 확인하실 수 있습니다.도통 알 수 없는 코드들이 나열되어 있는 것 같지만,자세히 살펴보면 일정한 규칙이 존재하고 있습니다.<>를 태그라고 하는데, 태그는 여는 태그와 닫는 태그 쌍으로 존재하며,태그 안에 다양한 내용이 담겨있습니다.각 웹페이지마다 태그 내에 담겨있는 요소의 개수, 형태가 모두 다를 수 있지만 태그와 관련된 규칙은 동일합니다.따라서 이 규칙을 활용하여 파이썬 같은 분석 도구를 사용하여 정형 데이터 형태로 전환하여 분석에 사용하고 합니다.3. 비정형 데이터비정형 데이터는 말 그대로 구조가 전혀 정의되어 있지 않은 데이터로,텍스트, 음성, 영상 등이 대표적인 비정형 데이터 예시입니다.사실 세상 속에 존재하는 데이터는 정형 데이터와 반 정형 데이터로 표현할 수 있는 데이터보다자유로운 형태로 존재하는 비정형 데이터가 훨씬 압도적으로 많습니다.하지만 규칙이 존재하지 않기 때문에 대용량의 데이터를 저장하고 다루기가 매우 까다로워기술이 발달하기 이전에는 비정형 데이터를 활용하는 경우가 드물었습니다.그러나 컴퓨터 기술이 발전함에 따라 비정형 데이터를 다룰 수 있는 다양한 분석 도구들이 등장했고,현재는 음성 인식 소셜 감정 분석 등 여러 분야에서 활발하게 활용되고 있습니다.데이터 분석 업무는 단순히 주어진 데이터를 분석하는 것이 끝이 아니라분석 주제를 위해 데이터를 정의하고 필요한 데이터를 준비하는 과정을 거치곤 합니다.이 과정에서 데이터의 유형이 비정형에 가까워질수록 분석의 난이도가 높아져전처리 과정에만 오랜 시간이 걸리기 때문에 시간 및 자원 분배를적절히 고려하여 데이터를 선택하는 것이 중요합니다.