반응형

혼공단/혼공단 5기 21

혼자 공부하는 머신러닝 + 딥러닝 5장 - 결정 트리

1. 결정트리 - 여러 단계의 복잡한 조건을 갖는 문제와 그 조건과 그에 따른 해결방법을 트리 형태로 나타낸 것. 모든 비종점 노드가 하나의 결정을 나타내는 이진트리. - 사이킷런의 DecisionTreeClassifier클래스를 사용한다. from sklearn.tree import DecisionTreeClassifier #random_state를 지정하는 이유는 같은 결과가 나오기 위해서이다. 평소에는 따로 지정하지 않아도 된다. dt = DecisionTreeClassifier(random_state=42) dt.fit(train_scaled, train_target) print(dt.score(train_scaled, train_target)) >> 0.996921300750433 print(d..

[혼공단 5기] 혼자 공부하는 머신러닝 + 딥러닝 3주차 후기 및 미션 인증

[이번주 과제 - 3주차] 1. 진도 공부 : 4장 다양한 분류 알고리즘 2. 기본 미션 : 4-1절 문제 풀고 인증샷 3. 선택 미션 : 4-2절 과대적합/과소적합 손코딩 코랩 화면 인증샷 ​ ​ 1. 진도 공부 1) 혼자 공부 하는 머신러닝 + 딥러닝 4장 - 로지스틱 회귀 링크 : https://sirokun.tistory.com/20 혼자 공부하는 머신러닝 + 딥러닝 4장 - 로지스틱 회귀 1. 로지스틱 회귀 - 선형 방정식을 학습하여 모델을 만든 뒤 이를 이용해 분류하는 모델(이름이 회귀이나 분류 모델에 속함) - 위와 같이 선형 방정식 형태로 나타나는데 이때 z값의 범위는 시그 sirokun.tistory.com 2) 혼자 공부 하는 머신러닝 + 딥러닝 4장 - 확률적 경사 하강법 링크 : h..

혼자 공부하는 머신러닝 + 딥러닝 4장 - 확률적 경사 하강법

1. 확률적 경사 하강법 - 앞서 훈련한 모델을 버리지 않고, 새로운 데이터에 대해서만 조금씩 더 훈련하는 방식. - 이렇게 진행할 경우 훈련에 사용한 데이터를 모두 유지할 필요도 없고 앞서 학습한 데이터를 까먹을 일도 없을 것이다. - 대표적인 점진적 학습 알고리즘으로 확률적 경사 하강법이 있다. - 전체 데이터 세트에서 확률적으로 선택된 하나의 예로 각 단계의 예측 경사를 계산하는 방법 - 확률적이란 말은 '무작위하게' 혹은 '랜덤하게'의 기술적인 표현이다. - 확률적 경사 하강법에서 훈련 세트를 한번 모두 사용하는 과정을 에포크(epoch)라고 부른다. - 미니배치 경사 하강법 : 여러개의 샘플을 사용해 경사하강법을 수행하는 방식 - 배치 경사 하강법 : 한번 경사로를 따라 이동하기 위해 전체 샘플..

혼자 공부하는 머신러닝 + 딥러닝 4장 - 로지스틱 회귀

1. 로지스틱 회귀 - 선형 방정식을 학습하여 모델을 만든 뒤 이를 이용해 분류하는 모델(이름이 회귀이나 분류 모델에 속함) - 위와 같이 선형 방정식 형태로 나타나는데 이때 z값의 범위는 시그모이드 함수(또는 로지스틱 함수)를 사용하면 0과 1 범위로 표현할 수 있다. - 시그모이드 함수 : 선형 방정식의 출력 z의 음수를 사용해 자연 상수 e를 거듭제곱하고 1을 더한 값의 역수, 이 값을 확률처럼 해석이 가능하다. - 사이킷런의 경우 시그모이드 함숫값이 0.5로 나오면 음수로 취급한다. 2. 로지스틱 회귀로 이진 분류 수행하기 #도미(bream)와 빙어(smelt)인 값들만 추출 bream_smelt_indexes = (train_target =='Bream') | (train_target =='Sm..

[혼공단 5기] 혼자 공부하는 머신러닝 + 딥러닝 2주차 후기 및 미션 인증

[이번주 과제 - 2주차] 1. 진도 공부 : 3장 회귀 알고리즘과 모델 규제 2. 기본 미션 : 3-1절 2번 문제 출력 그래프 인증샷 3. 선택 미션 : 모델 파라미터에 대해 설명하기 ​ ​ 1. 진도 공부 1) 혼자 공부 하는 머신러닝 + 딥러닝 3장 - k-최근접 이웃 회귀 - 링크 : https://sirokun.tistory.com/16 혼자 공부하는 머신러닝 + 딥러닝 3장 - k-최근접 이웃 회귀 1. k-최근접 이웃 회귀 - 지도학습 알고리즘은 크게 분류와 회귀로 나눔. - 분류 : 샘플을 몇 개의 클래스 중 하나로 분류하는 것 - 회귀 : 임의의 어떤 숫자를 예측하는 sirokun.tistory.com 2) 혼자 공부 하는 머신러닝 + 딥러닝 3장 - 선형 회귀 링크 : https://..

혼자 공부하는 머신러닝 + 딥러닝 3장 - 특성 공학과 규제

1. 다중회귀 - 다중회귀 : 여러개의 특성을 사용한 선형회귀 - 특성공학 : 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업 Ex) 특성이 a,b,c 인경우 특성공학을 이용하면 a^2, ab, abc 등의 특성을 만들 수 있다. - 사이킷런에서 특성을 만들거나 전처리 하기 위한 다양한 클래스 - 변환기 클래스에서는 모두 fit(), transform()을 제공한다. Ex) PolynomialFeatures 클래스로 만들어본 특성을 가진 샘플들 from sklearn.processing import Polynomial Features poly = PolynomialFeatures() poly.fit([[2,3]]) print(poly.transform([[2,3]])) >> [[1. 2. 3. 4. 6..

혼자 공부하는 머신러닝 + 딥러닝 3장 - 선형 회귀

- k-최근접 이웃 회귀는 가장 가까운 샘플을 찾아 타깃을 평균한다. 따라서 새로운 샘플이 훈련 세트의 범위를 벗어나면 엉뚱한 값을 예측할 수 있다. 1. 선형 회귀 - 널리 사용되는 대표적인 회귀 알고리즘 중 하나 - 특성이 하나인 경우 그 특성을 가장 잘 나타내는 어떤 직선을 학습하는 알고리즘. - sklearn.linear_model 패키지 아래에 LinearRegression 클래스로 구현 가능. - 사이킷런의 모델 클래스들은 훈련(fit),평가(score),예측(predict)하는 메서드 이름이 동일함 - 주어진 데이터 셋으로 아래와 같은 그래프를 그릴 수 있다. - LinearRegression 클래스에선 위와 같은 그래프에서 가장 잘 맞는 a,b값을 찾는다. 이때 a를 coef_, b를 in..

혼자 공부하는 머신러닝 + 딥러닝 3장 - k-최근접 이웃 회귀

1. k-최근접 이웃 회귀 - 지도학습 알고리즘은 크게 분류와 회귀로 나눔. - 분류 : 샘플을 몇 개의 클래스 중 하나로 분류하는 것 - 회귀 : 임의의 어떤 숫자를 예측하는 문제, 두 변수 사이의 상관관계를 분석하는 방법 1) k-최근접 이웃 분류 알고리즘 - 예측하려는 샘플에 가장 가까운 샘플 k개를 선택한 뒤, 이 샘플들의 클래스를 확인하여 가장 많은 클래스를 새로운 샘플의 클래스로 예측 한다. 1) k-최근접 이웃 회귀 알고리즘 - 예측하려는 샘플에 가장 가까운 샘플 k개를 선택한 뒤, 이 샘플들의 수치를 확인하여 그들의 평균을 새로운 샘플의 클래스의 타깃값으로 예측 한다. 2. 결정계수 - 사이킷런에서 k-최근접 이웃 회귀 알고리즘을 구현한 클래스는 KNeighborsRegressor - 분류..

[혼공단 5기] 혼자 공부하는 머신러닝 + 딥러닝 1주차 후기 및 미션 인증

0. 혼공단 5기를 시작하게 된 이유 혼공단은 이전에도 참여를 했던 프로그램이기도 합니다. 3기에서는 파이썬, 4기에선 자바를 신청해서 각각의 언어를 배우면서 전공실력을 키웠는데요. 이전에 신청한 3, 4기는 학교에서 배우는 전공실력을 키우는데 집중하는 용도로 했던 것이라면 이번에 신청한 혼공단 5기인 머신러닝+딥러닝은 제 꿈을 이루기 위한 한 발짝으로 지원을 했습니다. 대학교에 입학한 뒤 데이터 분석가라는 꿈을 이루기 위해 여러 강의를 들으면서 실력을 키우던 중 최근 한빛미디어에서 혼자 공부하는 머신러닝+딥러닝이 출간된 소식을 듣고 구매를 하고 방학에 공부할 준비를 하고 있었는데, 기말고사 기간중 마침 혼공단 5기에 머신러닝과 딥러닝 과목이 새로 신설된다는 소식을 듣고 이렇게 지원하게 되었습니다. 6주..

혼자 공부하는 머신러닝 + 딥러닝 2장 - 데이터 다루기

1. 훈련 세트와 테스트 세트 - 지도 학습 : 입력과 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는데 활용 - 비지도 학습 : 타깃 데이터 없이, 입력 데이터에서 어떤 특징을 찾는데 주로 활용 - 훈련 세트(train set) : 훈련에 사용되는 데이터,입력(데이터) + 타깃(정답) - 테스트 세트(test set) : 평가에 사용하는 데이터 - 머신러닝의 정확한 평가를 위해서는 테스트 세트와 훈련세트가 따로 준비되어 있는게 좋다. - 샘플링 편향 : 훈련세트와 테스트세트가 골고루 섞여있지 않아 샘플링이 한쪽으로만 치우친 상태 - 특정 종류의 샘플이 과도하게 많은 샘플링 편향을 가지고 있다면 제대로 된 지도 학습 모델을 만들 수 없다. 1) 넘파이 활용(다른 방법도 있으나 일단 2장에 소..

반응형