Brightics AI

[삼성SDS Brightics 서포터즈] Brightics Studio_Iris Species 머신러닝 실습

김혠 2021. 6. 28. 15:52

안녕하세요?

삼성SDS Brightics 서포터즈 김혜현입니다 😊

지난 포스팅의 Iris 시각화 잘 따라오셨겠죠 ~?

이번 포스팅에서는 머신러닝을 진행할 예정입니다 🥰

Titanic 데이터에서는 RandomForest를 사용하였더라면

이번에는 Rogistic Reggresion을 사용할 예정입니다 💙

🤍 지난 포스팅이 궁금하시다면 아래 링크를 참고해주세요 ㅎㅎ 🤍

https://khyeon.tistory.com/entry/%EC%82%BC%EC%84%B1SDS-Brightics-%EC%84%9C%ED%8F%AC%ED%84%B0%EC%A6%88-Brightics-StudioIris-Species-%EC%8B%9C%EA%B0%81%ED%99%94-%EC%8B%A4%EC%8A%B5

 

[삼성SDS Brightics 서포터즈] Brightics Studio_Iris Species 시각화 실습

안녕하세요? 삼성SDS Brightics 서포터즈 김혜현입니다 😊 ​ 지난 포스팅의 Titanic 데이터 분석 잘 따라오셨겠죠 ~? ​ 이번 포스팅에서는 데이터 시각화를 중심으로 진행할 예정입니다 🥰 ​ ​

khyeon.tistory.com

Iris 데이터는 전처리해줄 것이 크게 없었습니다.

하지만 조금이나마 Brightics와 친해질겸, 복습할겸~

Replace String Variable 함수를 사용하여

Species 컬럼을 숫자 범주형으로 바꿔주어 보도록 하겠습니다.

setosa는 0으로, versicolor는 1, virginica는 2로 바꿔주었습니다 !

머신러닝에 데이터를 넣기에 앞서

Split Data 함수를 사용하여 데이터를 나눠줍니다.

Iris 데이터는 다른 데이터에 비해

데이터의 양이 상대적으로 많이 적기 때문에 8:2로 나눠보았습니다.

하지만 !!!

7:2로 나누었을때가 더 높은 정확도가 나온다는 것을 확인할 수 있었습니다 .. ㅎ

그래서 일반적으로 7:3으로 나누는가 봅니다. . ~

Titanic 데이터에서는 Random Forest 모델을 사용하였더라면,

Iris 데이터에서는 Logistic Regressin 모델을 사용하여 보았습니다.

Logistic Regression는 Random Forest와 마찬가지로 대표적인 분류 모델이랍니다 :)

Evaluate Classification 함수를 사용하여

예측한 모델의 성능을 평가해주었습니다.

Label Column에는 Species를,

Prediction Column에는 Predeiction을 넣어주었습니다.

저는 약 0.97로 비교적 좋은 모델임을 확인하였습니다.

이것으로 Iris 데이터를 사용한

간단한 실습을 마무리 하도록 하겠습니다 🥰

혹시라도 궁금한 것이 있다면 댓글로 남겨주세요 >.ㅇ

그럼 다음 포스팅에서 만나요 🥰

* Brightics 서포터즈로서 직접 체험하고 작성한 리뷰입니다 *

#삼성SDS #BrighticsAI #BriticsStudio #macBrighticsStudio #Brightics #브라이틱스 #Brightics서포터즈 #서포터즈 #발대식 #모델링 #데이터분석 #데이터사이언티스트 #삼성서포터즈 #대외활동 #대외활동추천 #데이터분석대외활동 #대학생대외활동