1. 컴퓨터가 스스로 학습하는 기계학습이란 무엇인가
컴퓨터가 주어진 데이터가 아닌 학습 데이터와 상호작용에 기반하는 경험적 데이터로부터 스스로 성능을 향상하는 기술을 연구하는 과학과 기술을 말합니다.
이 문서는 기계학습이 어떠한 알고리즘으로 작동하고 연구되고 있는지에 대한 내용이 기술되어 있으며, 기계학습은 어떠한 분야에서 응용될 수 있는지 알 수 있습니다.
2. 기계학습이 연구하는 분야
인공지능의 한분야로 컴퓨터가 스스로 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야입니다. 제공된 데이터 집합을 분석하여 데이터의 고유한 속성정보를 추론하는 알고리즘을 연구합니다. 또한 새로운 지식을 습득하면서 새로운 상황의 문제 해결 능력을 갖출 수 있는 프로그램을 만듭니다.
기계학습의 기본 알고리즘은 주어진 데이터의 집하블 이용하여 데이터의 속성에 관한 정보를 추론해가는 알고리즘입니다.
3. 기계학습의 기본 알고리즘 및 분류
기계학습은 학습데이터 제공 방식에 따라 감독 학습과 무감독 학습, 강화 학습으로 나눌 수 있습니다.
3-1. 감독학습(Supervised Learning)
원하는 결과가 표현된 학습 데이터를 이용한 기계학습방법을 말합니다. 입출력의 쌍으로 구성된 학습 예제들로부터 학습되며 입력 x와 그에 대한 목표 출력 y를 제시하는 방식으로 동작합니다. 대표 기술로는 분류(classification), 신경망, 의사결정 트리 등이 있습니다.
3-2. 무감독학습(Unsupervised Learning)
원하는 결과가 표현되지 않은 학습데이터를 이용한 기계학습방법을 말합니다. 무감독 학습의 성능은 감독 학습방법보다 떨어지지만 학습 데이터 구축이 용이하므로 군집화(Clustering) 등의 문제에 적용할 수 있습니다. 학습 데이터가 입력은 주어지지만 대응되는 출력이 없으며, 입력 패턴의 공통적인 특성을 파악해가며 출력 값을 학습해나가는 알고리즘입니다. 대표적인 무감독 기술로는 군집화(Clustering), K-mean 알고리즘, 밀도기반 클러스터링 등이 있습니다.
3-3. 강화 학습(Reinforcement Learning)
옳은 행동에 대해 칭찬 받고 잘못된 행동에 대해 벌을 받는 경험을 통해 컴퓨터의 지식을 키워나가는 학습법을 말합니다.
감독 학습과 무감독 학습의 중간 형태로, 입력에 대해 학습자가 행동을 선택하고 그 행동에 대해서 보상되는 보상치(Reward)에 따라서 학습되는 알고리즘입니다. 대표 기술로는 시행착오, 보상 함수, Q-Learning 등이 있습니다.
3-4. 진화학습(Evolutionary Learning)
진화를 모방하여 동작하게 만든 알고리즘을 말합니다. 대표 기술로는 유전 알고리즘(Genetic algorithm)이 있습니다.
4. 기계학습의 응용분야
기계학습 알고리즘을 응용하여 다양한 분석 분야에 적용할 수 있습니다. 텍스트 마이닝, 웹 로그 분석, 스팸 필터, 문서 분류, 여과, 추출과 같은 인터넷 정보 검색에 기계 학습을 이용하면 스마트 검색 서비스를 제공하여 사용자의 편의성을 높일 수 있게 됩니다. 또한 컴퓨터가 사물을 인식하는 문자인식, 패턴인식, 물건과 얼굴 인식 같은 분야에서도 기계학습 알고리즘이 적용되어 사물을 판단하고 분석하는 과정을 거치게 됩니다. 그 외에도 음성인식, 단어 모호성 제거, 변역 단어 선택 등의 음석인식 서비스와 언어처리 분야에서도 광범위하게 기계학습 알고리즘은 적용되고 있습니다. 유전자를 인식하고, 제스처와 휴대기기의 각종 센서 정보를 인식하는 생물 정보학 분야에서도 기계학습은 사용되며, 제조업에서 상품의 이상 탐지, 에너지 소모 예측, 공정 분석을 계획하는 분야에서도 중요 의사결정 과정에 기계학습 알고리즘을 이용하고 있습니다.