DS

    비용함수(Cost Function) #1

    비용함수(Cost Function) #1

    머신러닝 모델은 위와 같이 동작하게 된다. 머신러닝 알고리즘에 학습시킬 Training data set이 존재하며, 그것을 Learning Algorithm의 input으로 활용한다. Learning Algorithm은 input으로부터 학습한 내용을 기반으로 결과를 예측하기 위한 최적의 가설(hypothesis)를 세운다. (여기서 가설을 '함수'라고 치환하여 쉽게 생각하자.) 새롭게 관측되는 data를 가설의 x, 즉 input으로 투입하여 결과 y를 예측한다. 그 결과값을 predicted y라 한다. 비용함수(Cost Function) 우리는 hypothesis function의 정확도를 높이기 위해 비용함수(cost function)을 사용할 수 있다. 앤드류 응 교수님은 집 값을 예측하는 지도..

    비지도학습(Unsupervised Learning)에 대한 이해

    비지도학습(Unsupervised Learning)에 대한 이해

    비지도학습(Unsupervised Learning)이란 지난 번 포스팅했던 지도학습과 마찬가지로 머신러닝 기법을 적용할 때 이용되는 학습 방법 중 하나이다. 지도학습을 활용하는 알고리즘에 학습시키는 데이터에는 '정답', 즉 target이 포함되어 있지만 비지도학습을 적용하는 알고리즘에서는 대체로 target이 포함되어 있지 않다는 것이 특징이다. 그래서 학습 방법의 이름에서 알 수 있듯이 지도학습은 'target이 이것이니 이렇게 지도해줄게'라고 친절하게 학습시키는 반면, 비지도학습은 정답이 존재하지 않아 주어진 데이터 셋으로부터 무엇을 할지 알기가 어렵다. 단지 주어진 데이터 셋으로부터 어떠한 구조(structure)를 찾을 수 있을까 알고리즘에게 물어볼 뿐이다. 아무것도 모를 당시에는 '정답이 주어지..

    지도학습(Supervised Learning)에 대한 이해

    지도학습(Supervised Learning)에 대한 이해

    지도학습(Supervised Learning)이란 머신러닝 기법을 적용할 때 이용되는 학습 방법 중 하나이다. 지도학습을 활용하는 알고리즘은 '정답'이 포함된 데이터 셋을 이용하여 학습하며 학습한 데이터 셋을 기반으로 추가로 발생하는 관측치(혹은 데이터 셋)의 정답을 유추해내게 된다. 당연한 말이겠지만 보다 많은 데이터 셋이 있을 경우, 즉 표본이 많아지게 될 경우 알고리즘이 정확히 정답을 유추해낼 확률이 높아지는 게 일반적이다. 작년 하반기 강의를 수강할 때 Boston house prices data set과 Iris flower data set으로 지도학습을 처음 접했다. 이미 Python이나 R 라이브러리가 다수 존재하고 조금만 구글링해봐도 다양한 글들이 쏟아져 나올 정도로 아주 대표적인 예시들이..

    머신러닝에 대한 정의 (Maching Learning Definition)

    머신러닝에 대한 정의 (Maching Learning Definition)

    Arthur Samuel(1959) Machine Learning is Field of study that gives computers the ability to learn without being explicitly programmed. Tom Mitchell(1998) Machine Learning is Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. Arthur Samu..