컴퓨터/머신러닝 (7) 썸네일형 리스트형 [혼자 공부하는 머신러닝] 6. 비지도 학습 비지도 학습훈련 세트를 타깃이 없는 데이터를 통해 학습하는 것이다. 대표적으로 군집(clustering), 시각화와 차원축소(visualization & dimensionality reduce), 연관 규칙 학습(association rule learning)이 있다.군집 알고리즘과일 데이터를 사용해서 군집 알고리즘을 실험해본다.과일 데이터는 아래의 코드를 통해서 불러올 수 있고 해당하는 과일에 대한 이미지는 아래와 같다.이때 cmap을 gray_r로 설정해야 픽셀의 값이 없는 외곽을 흰색으로 설정되고 내부의 이미지 데이터는 흑백이미지로 잘 나오게 된다.!wget https://bit.ly/fruits_300_data -O fruits_300.npyfruits = np.load('fruits_300.np.. [혼자 공부하는 머신러닝] 5. 트리 알고리즘 결정 트리 결정트리를 사용하면 모델을 어떤 기준에 따라서 분류가 진행되었는지 확인할 수 있어 결과에 대한 이유를 설명하기 쉽다. 위의 모형에서 볼 수 있듯이 결정트리는 먼저 루트노드에서 시작한다. 그리고 각 노드에서 조건을 만족하면 왼쪽 자식노드로 만족하지 않으면 오른쪽 자식노드로 이동한다. 이때 자식노드를 가지지 않는 리프노드라면 추가적인 검사를 하지 않는다. 그리고 각각의 노드 안에 있는 요소는 아래와 같다. - sample: 얼마나 많은 데이터를 해당 노드에서 분류를 할 건지 나타낸다. - value: 각 데이터들이 해당 노드에서 어떤 클래스에 속해있는지 나타낸다. - gini: 불순도로 아래와 같은 공식의 값에 따라 표기한다. $G_i = 1 - \sum\limits_{k=1}^n p_{i,k}^.. [혼자 공부하는 머신러닝] 4. 다양한 분류 알고리즘 다중 분류 타깃 데이터에 2개 이상의 클래스가 포함된 문제를 다중 분류라고 한다. 물고기 데이터를 이용해서 다중 분류 문제를 볼 때 먼저 데이터를 아래와 같이 불러올 수 있다. import pandas as pd fish = pd.read_csv('https://bit.ly/fish_csv_data') fish.head() 첫 번째 열에서 물고기 종 데이터가 나오고 뒤의 5개의 열은 해당 물고기 데이터에 대한 특성을 나타낸다. 따라서 특성에 따라 물고기의 종을 예측하기 위해 종에 해당하는 특성을 target으로 설정하고 나머지를 train데이터로 분류하여 학습을 진행하면 된다. 로지스틱 회귀 샘플이 특정 클래스에 속할 확률을 추정하는데 사용되는 분류 모델로 입력 특성의 가중치 핪을 계산하고 편향을 더한다.. [혼자 공부하는 머신러닝] 3. 회귀 알고리즘과 모델 규제 회귀 예측 변수를 통해 목표하는 데이터의 수치를 예측하는 문제이다. 분류에서 사용했던 K-NN알고리즘을 이용해서 동일한 원리로 예측하려는 샘플에 가장 가까운 샘플 K개를 선택하여 해당 샘플의 평균을 구하여 예측 타깃값을 정하면 된다. 결정계수 분류 문제의 경우 훈련 결과를 평가할 때 테스트 세트에 있는 샘플을 정확히 분류한 개수의 비율인 정확도를 사용해서 평가하였다. 하지만 회귀의 경우 정확히 맞다 아니다라고 할 수 없기 때문에 다른 평가 기준을 세워야하는데 그 점수를 결정계수라고 한다. $$R^2 = 1 - \frac{\sum\limits_{i = 1}^n (y_i - \hat y_i )^2}{\sum\limits_{i = 1}^n (y_i - \mu )^2} \quad y_i: 실제값, \hat y_.. [혼자 공부하는 머신러닝] 1. 나의 첫 머신러닝 & 2. 데이터 다루기 인공지능이란? 인공지능은 사람처럼 학습하고 추론할 수 있는 지능을 가진 컴퓨터 시스템을 만드는 기술이다. 지금 우리가 사용하는 인공지능의 기본인 뉴런과 퍼셉트론과 같은 개념은 1900년대 중반에 나왔지만 컴퓨터 성능의 한계로 진정한 지능의 영역에 도달하지 못하여 AI겨울을 맞이하게 되었다. 머신러닝이란? 머신러닝은 규칙을 일일이 프로그래밍 하지 않고 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야이다. 즉, 인공지능의 하위 분야 중에서 지능을 구현하기 위한 소프트웨어를 담당하는 분야이다. 딥러닝이란? 머신러닝의 알고리즘 중에서 인공 신경망을 기반으로 한 방법들을 통칭하여 딥러닝 이라고 부른다. AI겨울을 이겨내기 위해 인공지능에 대한 연구를 지속하다 신경망 모델을 만들어 이미지를 인식하는 데.. PRML 2. 확률 분포 보호되어 있는 글입니다. PRML 1. 기본적인 머신러닝 소개 보호되어 있는 글입니다. 이전 1 다음