지난 시간 리뷰

회사에서 나를 데리고 가려면, 이 조직에서 필요하다는게 증명이 되어야 하잖아요

이 쪽 분야 공부를 하긴 하되,

회사 입장에서는 미래를 알면 독점을 할 수 있습니다.

현업에서도 예측 모델을 만들면, 5지 선다로 만들면 종이로 돌돌말아서 임원한테 맞는다고.

5지 선다 대신에 2진 분류로 대부분 풀려요.

Decision Making을 할 때 여러분의 경험이 들어가면 안됩니다.

그 경험은 그 인생에 완전히 bias가 되어 있기 때문에, 객관성이 없죠. 두 번 살 수 없기 때문에.

공부 두 가지 하라 그랬죠.

우리의 객관성 담보는 뭘로 한다그랬죠?

우리는 수학으로 얘기한다 그랬으니까 수학을 열심히 해야 합니다.

알고리즘을 알아야 성능 개선 포인트가 어딘지 찍을 수 있습니다.

미래를 맞추려고 하면, 과거의 데이터가 있어야 합니다.

수학, 과학 과목이 합격 여부에 미치는 영향을 수치형 데이터로 바꿔치기 할 수만 있으면, 영향력이 숫자가 얼마니까. 비교할 수 있고, 비교할 수 있으면 정렬 할 수 있습니다. 엔트로피는 물리에서는 한가지 상태만 있는 상태가 엔트로피가 낮은 것인데, CS분야에서는 한 가지 상태만 있는 것을 분류가 잘 되어 있는 상태입니다.

Deep Learning <- Artificial Neural Network <- Perceptron <- linear Classifier

Parameter Learning

Domain Knowledge 이용
Data Mining 기법 이용
- Parameter Learning or Parametric Modeling
- Linear 모델 기반
가정
- 분류와 계층 확률 추정 시 2진 계층만 고려
- 모든 속성이 수치형이라 가정
- 수치형 데이터의 공통단위 표준화 필요 없음

Decision Tree는 Information Gain, Information Gain은 Entropy, Entropy는 확률이라구요.

확률 모델은 셀수만 있으면, 데이터가 셀 수 있으면 돼요.

나이라는 속성에서 30은 사회과학에서 1세대라고 하기 때문에, 많이 차이가 나는거라고 할 수 있어요.

그런데, 통장에서 월급 30만원은 큰 차이는 아니에요.

수학적으로 계산했을 때는 같은 30이기 때문에,

도메인 지식의 전문가에게 회의할 때, 나이라는 속성은 중요한 속성인가 하고 물어봐야 합니다.

나이와 도메인은 같은 단위로 취급하면 안되기 때문입니다.

Abstract

목표

최적의 모델 파라미터를 찾아 모델을 데이터에 맞추기
- 약간의 수학 필요

무사가 나오는 영화같은걸 보면, 짚단이 항상 나오고 짚단을 슥 하고 벱니다.

짚단은 3차원인데, 2차원인 평면이 나옵니다.

2차원인 평면은 짚단을 두 개로 분류하는 2진 분류기입니다.

OCCAM's Razor

1차식, 2차식, 3차식으로 된 것이 같은 성능이면 무조건 1차식을 사용한다는 것이 OCCAM's Razor

minimum, maximum

제안서에 이제 minimum이랑 maximum이라고 얘기 안 합니다.

local minimum, local maximu이라고 얘기하는데, 같은 단어를 local minima, maxima라고 합니다. 같은

SVM은 XOR문제를 풀 수 있습니다. 어떻게 푸냐면, O는 낮은거, X는 높은 봉우리 아니야? 하면서 차원을 하나 늘려서, 면으로 자릅니다. 이게 가능할 때까지, 차원을 계속 확장 합니다.

삼성 티비같은 경우에 블루레이 정품 파일을 넣어서 보면, 사운드가 정말 좋습니다.

블루레이 정품은 사운드와 영상이 분리가 되어 있는데, 일반 블루레이 파일은 합쳐져 있어서 그게 안됩니다.

블루레이 정품에다 다음 영상을 미리 불러와서 그거에 맞는 음성 모드(스포츠 모드 등)으로

구분 선에서 멀먼 어떤 집합에 속할 확률이 높다고할 수 있고, 구분 선에서 가까이에 있으면 확률이 작다고 할 수 있습니다.

왜냐하면, 기울기나 절편이 조금만 바뀌어도 다른쪽 분류로 쉽게 바뀔 수 있습니다.

함수이용 회귀 회귀 분석(Regression via Math Functions)

target value에 수치형 데이터가 들어가는 것이 회기 모델입니다.

내가 알고 싶은 것이 어떤 값이고, 어떤 것이 가장 큰 영향을 미치는지.

얼마나라고 말을 붙여서 말이 되면 그것은 휘귀 분석이에요

분류 모델에서는 위인지 아래인지 잘 그어야 하는데
회귀 분석에서는 모델이 추세선이에요.

확률을 선호하는 이유는 숫자가 0에서 1까지 밖에 없기 때문입니다.

odds

일어날 가능성 : 사건이 일어나지 않을 가능성

확률	승산(Odds)	로그 승산
0.5	50:50 즉 1	0
0.9	90:10 즉 9	2.19
0.999	999:1 즉 999	6.9
0.01	1:99 즉 0.0101	-4.6
0.001	1:999 즉 0.001001	-6.9

$$ odds = \frac{P}{1-P} $$

$$ log_e odds = log_e e^{(b + w_1 x_1 + w_2 x2)} = b + w_1 x_1 + w_2 x_2 ... $$

책 추천

오일석 교수님 - 패턴인식(SVM 이해하기 좋음)

오일석 교수님 - 머신러닝

Logistic Regression

odds는 승산이라서 1보다 크면 A이고, 1보다 작으면 B라고 할 수 있습니다.(A와 B로 나누는 모델에서 A일 확률이 50:50보다 높은 경우)

그 때 확률은(A의 확률) 0.5입니다.

따라서 0.5보다 크면 A이고, 0.5보다 작으면 B라고 할 수 있습니다.

하지만 실제 세계에서는 0.5보다 작은 경우가 있어서

실험을 돌리면서 0.5 대신에 주변에 다른 값으로 조절해서 점점 맞춰나가는 것입니다.

Threashold

Perceptron

학습 데이터 준비
가중치와 바이어스 가중치를 -0.5와 0.5 사이의 임의의 값으로, 바이어스 입력 값을 -1 또는 1로 초기화
하나의 학습 벡터에 대한 출력층 뉴런의 net값 계산
활성함수를 통해 계산된 net 값으로부터 뉴런의 실제 출력 값 계산
목표 값과 출력 값이 일치하지 않으면 가중치 조정
모든 출력 값이 목표 값과 일치할 때 까지 3~5 반복

활성화 함수

step function은 미분이 안되기 때문에 신경망에서 사용될 수 없습니다.

sigmod는 미분했을 때 자기 자신이 나옵니다. 그래서 신경망

chain rule

weight를 하나를 바꾸면 이전의 층에 있는 weight를 바꿔야 하기 때문에 chain rule를 사용 해야 합니다.

sigmod의 약점

높은 쪽에 있으면 거의 기울기가 0이기 때문에 back propagation이 잘 안 일어납니다.

즉, 학습이 잘 안 일어납니다.

경쟁사가 못만드는거 내가 만들 수 있어야합니디.

선릉에 가서 수업을 듣게 되면, 혹시나 한번 만난 적 있다고 밥 사달라고 해요.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2019-08-13_insight.md

2019-08-13_insight.md

지난 시간 리뷰

Parameter Learning

Abstract

OCCAM's Razor

minimum, maximum

함수이용 회귀 회귀 분석(Regression via Math Functions)

odds

책 추천

Logistic Regression

Perceptron

활성화 함수

chain rule

sigmod의 약점

Files

2019-08-13_insight.md

Latest commit

History

2019-08-13_insight.md

File metadata and controls

지난 시간 리뷰

Parameter Learning

Abstract

OCCAM's Razor

minimum, maximum

함수이용 회귀 회귀 분석(Regression via Math Functions)

odds

책 추천

Logistic Regression

Perceptron

활성화 함수

chain rule

sigmod의 약점