반응형

분류 전체보기 78

혼자 공부하는 머신러닝 + 딥러닝 6장 - 주성분 분석

1. 차원과 차원 축소 차원 : 데이터가 가진 속성을 말한다. 특성과 동일한 의미이다 - 비지도 학습 방법 중의 하나이다. - 데이터를 잘 나타내는 일부 특성을 선택하여 데이터 크기를 줄이고 지도학습 모델의 성능을 향상시킬수 있다. - 차원 축소를 실행할 경우 과대적합을 방지할 수 있다. 2. 주성분 분석(Principal Component Analysis, PCA) - 주성분 분석은 데이터에 있는 분산이 큰 방향(데이터가 더 퍼져 있는 방향)을 찾는 것이다. - 주성분 벡터는 원본 데이터에 있는 어떠한 방향적 특성이다 - 따라서 주성분 벡터의 원소개수는 원본 데이터셋에 있는 특성 개수와 같다. - 주성분은 가장 분산이 큰 방향이기 때문에, 첫 번째 주성분이 분산이 가장 크고, 마지막으로 갈수록 분산이 ..

혼자 공부하는 머신러닝 + 딥러닝 6장 - 군집 알고리즘 & k - 평균

1. 군집 - 머신러닝의 한 종류로 훈련 데이터에 타깃이 따로 없다. - 그러므로 스스로 유용한 무언가를 찾아 학습해야 한다. - 군집, 차원 축소등이 이에 해당한다. - 비슷한 샘플끼리 그룹으로 묶는 작업 - 대표적인 비지도 학습 방법 중 하나이다. - 군집 알고리즘에서 만든 그룹을 클러스터(Cluster)라고 부른다. 2. k-평균 - 처음에 랜덤하게 클러스터 중심을 정하고 클러스터를 만든다. 그 다음 클러스터의 중심을 이동하고, 다시 클러스터를 만드는 식으로 반복해서 최적의 클러스터를 구성하는 알고리즘 - 클러스터 중심 : k-평균 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값. 센트로이드라고도 부른다. [실습 코드] from sklearn.cluster import KMeans #모델 생성 ..

[혼공단 5기] 혼자 공부하는 머신러닝 + 딥러닝 4주차 후기 및 미션 인증

[이번주 과제 - 4주차] 1. 진도 공부 : 5장 트리 알고리즘 2. 기본 미션 : 교차 검증을 그림으로 설명하기 3. 선택 미션 : 5-3절 앙상블 모델 손코딩 코랩 화면 인증샷 ​ ​ 1. 진도 공부 1) 혼자 공부 하는 머신러닝 + 딥러닝 5장 - 결정 트리 링크 : sirokun.tistory.com/23 혼자 공부하는 머신러닝 + 딥러닝 5장 - 결정 트리 1. 결정트리 - 여러 단계의 복잡한 조건을 갖는 문제와 그 조건과 그에 따른 해결방법을 트리 형태로 나타낸 것. 모든 비종점 노드가 하나의 결정을 나타내는 이진트리. - 사이킷런의 DecisionTreeCl sirokun.tistory.com 2) 혼자 공부 하는 머신러닝 + 딥러닝 5장 - 교차 검증과 그리드 서치 링크 : sirokun..

혼자 공부하는 머신러닝 + 딥러닝 5장 - 트리의 앙상블

1. 정형 데이터와 비정형 데이터 & 앙상블 학습 - 정형 데이터 : 구조가 정해져 있고 가지런히 정리된 데이터 - 비정형 데이터 : 데이터베이스나 엑셀로 표현하기 어려운 것들. 텍스트, 사진, 음성파일등이 해당된다. - 다양한 분류 알고리즘(주로 결정 트리를 기반)을 합쳐서 학습을 진행하는 방법 - 랜덤 포레스트, 엑스트라 트리, 그레이디언트 부스팅 등이 있다. 2. 랜덤 포레스트 - 결정 트리를 랜덤하게 만들어 결정 트리의 숲을 만든다. 그리고 각 결정 트리의 예측을 사용해 최종 예측을 만든다. - 랜덤 포레스트는 각 트리를 훈련하기 위한 데이터를 랜덤하게 만드는게 이때 부트스트랩 샘플을 사용한다. - 전체 세트에서 뽑았던 샘플을 다시 넣어서 복원 추출을 하게 하는 것. 이 경우 중복이 적용된다. -..

혼자 공부하는 머신러닝 + 딥러닝 5장 - 교차 검증과 그리드 서치

1. 교차 검증 - 테스트 세트를 사용하지 않고 모델이 과대적합인지, 과소적합인지 판단하는 방법. - 보통 전체 데이터중 20%를 테스트 세트로 80%를 훈련세트로 만든 뒤, 이 훈련 세트중 20%를 다시 떼어내서 검증세트로 만든다. - 많은 데이터를 훈련할수록 좋은 모델이 생기지만, 검증 세트를 너무 적게 때면 검증 점수가 들쭉 날쭉해질 것이다.. - 검증 세트를 떼어내는 과정을 여러번 반복 하는 것. - 사이킷런에는 cross_validate라는 교차 검증 함수가 있다. - 평가할 모델 객체를 첫번째 매개변수로 넣고, 두번째 매개변수로는 훈련세트 전체를 집어 넣는다. from sklearn.model_selection import cross_validate scores = cross_validate(..

혼자 공부하는 머신러닝 + 딥러닝 5장 - 결정 트리

1. 결정트리 - 여러 단계의 복잡한 조건을 갖는 문제와 그 조건과 그에 따른 해결방법을 트리 형태로 나타낸 것. 모든 비종점 노드가 하나의 결정을 나타내는 이진트리. - 사이킷런의 DecisionTreeClassifier클래스를 사용한다. from sklearn.tree import DecisionTreeClassifier #random_state를 지정하는 이유는 같은 결과가 나오기 위해서이다. 평소에는 따로 지정하지 않아도 된다. dt = DecisionTreeClassifier(random_state=42) dt.fit(train_scaled, train_target) print(dt.score(train_scaled, train_target)) >> 0.996921300750433 print(d..

[혼공단 5기] 혼자 공부하는 머신러닝 + 딥러닝 3주차 후기 및 미션 인증

[이번주 과제 - 3주차] 1. 진도 공부 : 4장 다양한 분류 알고리즘 2. 기본 미션 : 4-1절 문제 풀고 인증샷 3. 선택 미션 : 4-2절 과대적합/과소적합 손코딩 코랩 화면 인증샷 ​ ​ 1. 진도 공부 1) 혼자 공부 하는 머신러닝 + 딥러닝 4장 - 로지스틱 회귀 링크 : https://sirokun.tistory.com/20 혼자 공부하는 머신러닝 + 딥러닝 4장 - 로지스틱 회귀 1. 로지스틱 회귀 - 선형 방정식을 학습하여 모델을 만든 뒤 이를 이용해 분류하는 모델(이름이 회귀이나 분류 모델에 속함) - 위와 같이 선형 방정식 형태로 나타나는데 이때 z값의 범위는 시그 sirokun.tistory.com 2) 혼자 공부 하는 머신러닝 + 딥러닝 4장 - 확률적 경사 하강법 링크 : h..

혼자 공부하는 머신러닝 + 딥러닝 4장 - 확률적 경사 하강법

1. 확률적 경사 하강법 - 앞서 훈련한 모델을 버리지 않고, 새로운 데이터에 대해서만 조금씩 더 훈련하는 방식. - 이렇게 진행할 경우 훈련에 사용한 데이터를 모두 유지할 필요도 없고 앞서 학습한 데이터를 까먹을 일도 없을 것이다. - 대표적인 점진적 학습 알고리즘으로 확률적 경사 하강법이 있다. - 전체 데이터 세트에서 확률적으로 선택된 하나의 예로 각 단계의 예측 경사를 계산하는 방법 - 확률적이란 말은 '무작위하게' 혹은 '랜덤하게'의 기술적인 표현이다. - 확률적 경사 하강법에서 훈련 세트를 한번 모두 사용하는 과정을 에포크(epoch)라고 부른다. - 미니배치 경사 하강법 : 여러개의 샘플을 사용해 경사하강법을 수행하는 방식 - 배치 경사 하강법 : 한번 경사로를 따라 이동하기 위해 전체 샘플..

혼자 공부하는 머신러닝 + 딥러닝 4장 - 로지스틱 회귀

1. 로지스틱 회귀 - 선형 방정식을 학습하여 모델을 만든 뒤 이를 이용해 분류하는 모델(이름이 회귀이나 분류 모델에 속함) - 위와 같이 선형 방정식 형태로 나타나는데 이때 z값의 범위는 시그모이드 함수(또는 로지스틱 함수)를 사용하면 0과 1 범위로 표현할 수 있다. - 시그모이드 함수 : 선형 방정식의 출력 z의 음수를 사용해 자연 상수 e를 거듭제곱하고 1을 더한 값의 역수, 이 값을 확률처럼 해석이 가능하다. - 사이킷런의 경우 시그모이드 함숫값이 0.5로 나오면 음수로 취급한다. 2. 로지스틱 회귀로 이진 분류 수행하기 #도미(bream)와 빙어(smelt)인 값들만 추출 bream_smelt_indexes = (train_target =='Bream') | (train_target =='Sm..

[혼공단 5기] 혼자 공부하는 머신러닝 + 딥러닝 2주차 후기 및 미션 인증

[이번주 과제 - 2주차] 1. 진도 공부 : 3장 회귀 알고리즘과 모델 규제 2. 기본 미션 : 3-1절 2번 문제 출력 그래프 인증샷 3. 선택 미션 : 모델 파라미터에 대해 설명하기 ​ ​ 1. 진도 공부 1) 혼자 공부 하는 머신러닝 + 딥러닝 3장 - k-최근접 이웃 회귀 - 링크 : https://sirokun.tistory.com/16 혼자 공부하는 머신러닝 + 딥러닝 3장 - k-최근접 이웃 회귀 1. k-최근접 이웃 회귀 - 지도학습 알고리즘은 크게 분류와 회귀로 나눔. - 분류 : 샘플을 몇 개의 클래스 중 하나로 분류하는 것 - 회귀 : 임의의 어떤 숫자를 예측하는 sirokun.tistory.com 2) 혼자 공부 하는 머신러닝 + 딥러닝 3장 - 선형 회귀 링크 : https://..

반응형