1. 정보의 패턴을 찾아 의사결정에 활용하는 데이터마이닝(Data mining)이란 무엇인가
빅데이터, AI 시대에 대량의 데이터로부터 알려지지 않은 정보, 패턴을 찾아 의사결정에 활용하려는 데이터 분석 및 지식 발견 프로세스를 데이터마이닝이라고 합니다. 대용량의 데이터는 시간의 흐름에 따라 방대한 양이 축적되게 되는데, 컴퓨터의 처리속도와 능력을 활용할 수 있게 되면서 데이터의 가치를 찾아 의사결정을 위해 활용할 수 있게 되었습니다.
이 문서는 데이터 활용을 위한 데이터마이닝프로세스의 기능 및 주요 기법에 대해 기술되어 있습니다.
2. 데이터 마이닝의 기능
데이터마이닝의 기능으로는 분류(Classification), 예측(Forecasting), 군집(Clustering), 일반화(Generalization)이 있습니다. 분류방법은 이미 알려진 속성을 활용하여 미래데이터의 그룹의 특징을 부여하는 분석 기법을 이야하깁니다. 예측방법은 컴퓨터의 처리속도와 능력을 활용하여, 아직 실제 발생하지 않은 사건을 확률로 예측하는 분석기법입니다. 다음으로 군집방법은 유사한 특성을 가진 데이터를 그룹으로 생성하고 분류하여 패턴을 분석하는 기법을 말합니다. 마지막 일반화는 관련성이 강한 데이터의 조합을 통해 일반적인 패턴을 발견하는 기법입니다.
3. 데이터마이닝의 주요 기법
3-1. 의사결정나무(Decision Tree)
과거 수집된 레코드를 분석하여 이들 사이에 존재하는 패턴, 즉 분류별 특성을 속성의 조합으로 나타내는 나무형태의 분류모형을 말합니다. 우수 고객 분류, 대출심사, 질명예측 모형같은 분석이 의사결정나무 기법에 속할 수 있습니다. 특정 정보를 계층적으로 표현하여 확율을 예상하는 구조이며 분석의 정확도보다는 분석과정의 설명이 필요한 경우에 더 유용하게 사용될 수 있습니다.
3-2. 신경망(Neural Network)
인간의 두뇌세포를 모방한 개념으로 반복적인 학습 과정을 통하여 모형을 만들어가는 기법을 말합니다. 데이터로부터 반복적인 학습과정을 거쳐 패턴을 찾아내고 이를 일반화함으로써 향후 예측하고자하는 문제에 있어서 유용하게 사용되는 기법입니다. 신경망 기법은 카드 오용방지, 사기행위 적발등의 사례에 적용될 수 있습니다.
3-3. 연관성 분석(Association)
데이터 안에 존재하는 항목간의 종속관계를 찾아내는 기법을 말합니다. 상품 혹은 서비스의 거래기록 데이터로부터 상품간의 연관성 정도를 측정하여 연관성이 많은 상품들을 그룹화하는 클러스터링 활동의 일종입니다. 발생한 정보의 확률적 빈도를 분석하며 장바구나 분석에 활용하여 사용자의 거래패턴을 파악하는데 사용할 수 있습니다.
3-4. 연속규칙(Sequence)
연관규칙에 시간관련 정보가 포함되어 있는 형태로 고객의 구매이력 정보가 포함되는 형태의 분석방법입니다. 연관성 분석과는 달리 데이터의 순서가 중요하게 고려되어야 할 때 사용할 수 있습니다.
3-5. 군집화(Clustering)
유사한 특징을 가진 데이터를 그룹화시켜 분석하는 기법을 말합니다. 고객을 세분화하거나 지점의 위치를 결정하는 등에 활용될 수 있는 기법입니다.