[생활코딩] 머신러닝 직업으로의 시작
[생활코딩]
머신러닝 직업으로의 시작
앞서 다룬 머신 러닝은
교양적인 정도의 지식이라면
앞으로는 좀 더 전문적인 지식을 다룹니다.
하지만 어렵지 않을 겁니다. 아마도
앞에 내용.
머신러닝에 대해서 좀 더 전문적인 지식으로 가기 위해서는 앞서 다룬 포스팅에서의 내용처럼 머신러닝은 특정한 데이터를 우리가 원하는 방식으로 처리해서 원하는 결과를 도출하는 과정을 총괄하는 의미도 있다고 생각합니다.
그렇기에 머신러닝을 위해서는 데이터가 필요합니다. 개와 고양이를 구분시키기 위해서 개와 고양이의 사진이 필요하듯 말입니다. 그렇기 위해서는 다양한 인과관계가 얽히고 설킨 복잡한 현실을 단순한 데이터로 만들필요가 있습니다.
예시를 들면 고양이와 개의 사진에서 다양한 고양이와 개의 종류의 사진을 학습시켰지만 오직 고양이와 개의 사진만을 사용한 과정이 바로 다양한 동물 중에서 고양이와 개의 데이터만을 뽑아 단순화 것이라고 볼 수 있습니다.
현실을 데이터화하는 이런 일을 데이터 산업이라고 할 수 있습니다. 테이터 산업에는 크게 2개로 분리됩니다.
바로 데이터 과학(data science)과 데이터 공학(data engineering)입니다.
데이터 과학은 데이터를 제작하고 이용하는 분야이고 데이터 공학은 데이터를 다루는 도구를 만들고 관리하는 분야입니다. 비록 데이터 산업을 2개의 분야로 나우었지만 이 두 분야의 협업은 필수적이기에 어느 하나만 존재 할 수 없습니다.
제 개인적인 생각으로 예시를 들자면 과학자들이 생물의 세포나 우주의 천체 또는 화학반응을 연구하고 설명하기 위해서 관찰대상의 데이터를 수집할 필요가 있습니다. 하지만 그 데이터를 수집하기 위해서 도구가 필요합니다. 그 도구를 만들고 관리하는 것이 데이터 공학입니다. 하지만 도구를 만들기 위해서는 어떤 데이터가 어떻게 사용되는지를 알 필요가 있습니다. 그렇기에 과학은 공학이 필요하고 공학은 과학이 필요하게 되는 것 입니다. 즉, 알이 먼저냐 닭이 먼저냐에서 누가 먼저든 결국 닭과 알이 모두 필요하다는 것은 불변이라 생각합니다.
즉, 머신러닝에 대해서 배우고자 한다면 데이터 과학과 데이터 공학을 모두 필요하다는 것을 알 수 있습니다.
요약 : 머신러닝을 위해서는 데이터가 필요하고 그 데이터를 만드는 일을 데이터 산업이라하며 데이터 과학과 데이터 공학으로 분리됩니다.
다음 게시물에서는 데이터를 정리하는 "표"에 대해 다루겠습니다.
by 생활코딩. 머신러닝 을 제 나름되로 정리한 것입니다.
댓글 쓰기
0 댓글