Brightics AI

[삼성SDS Brightics 서포터즈] 개인프로젝트_UCI / 스마트폰을 이용한 사용자 행동 인식 데이터 셋_1.데이터 전처리

김혠 2021. 9. 15. 01:05

안녕하세요?

삼성SDS Brightics 서포터즈 김혜현입니다 😊

여러분 요즘 뭐하시며 하루를 보내시나요?

개강하신 분들도 계시고, 휴학하신 분들도 계실텐데요 !!

요즘 시간이 정말 너무 빠르게 지나가는것 같아용..🥺

이번 포스팅에서는

"스마트폰을 이용한 사용자 행동인식 데이터 셋"의 전처리를 진행할거예요 ❗️

"스마트폰을 이용한 사용자 행동인식 데이터 셋"

특이하게도

features.txt에 피쳐명이 담겨있습니다 🥺

이를 X_train 과 X_test에 적용시켜주어야하는데요 !!

하지만

Brightics Studio에서 데이터를 불러오면

첫번째 로우를 컬럼으로 인식한다는 점 .. !!!

그래서 부득이하게 이번 프로젝트에서는

파이썬으로 전처리를 해주었습니다 ㅠ

데이터 전처리

전처리 하기에 앞서 데이터를 살펴보는 과정에서

features.txt에 중복되는 값이 있음을 확인하였고

중복되는 값에 _1, _2를 더해줌으로서 중복되는 값이

없도록 해주면 좋을 것 같다는 생각이 들었습니다 ❗️

그리하여 파이썬으로 중복되는 피처에

_1, _2를 붙여 구별해주는 작업을 해주었습니다.

해당 과정은 Brightics에서도 가능하답니다 !!!

Brightics Studio와 파이썬을 직접적으로 비교하기 위해

전처리 부분은 파이썬으로 진행해보았습니다 😊

가장 먼저 눈에 보이는 것은

파이썬은 라이브러리를 불러와 주어야 힌다는 점 !!!!

파이썬으로 전처리를 ㅎ게 된 실질적인 목적인

X_train.txt와 X_test.txt에 전처리한 피쳐명을 적용시켜 주었습니다.

Brightics Studio의 컬럼은 알파벳, 숫자, '_'로만

이루어져야 하기 때문에 이를 전처리하는 과정도 진행하였습니다 :)

전처리 후 텍스트 파일로 저장해주고

Brightics Studio로 불러와 주었습니다 !!

파이썬을 사용하고 Brightics Studio를 사용하니

더욱 반갑게 느껴지는 것 같아용 ...ㅎㅎㅎㅎ

전처리를 진행하니 오류없이 데이터가 잘 불러와졌네요 ㅎㅎ !!!

y_train의 action값을 확인해보면 심하게 왜곡되지 않고

비교적 골고루 분포되어 있는 것 또한 확인하였습다:)

다들 즐거운 설 연휴 보내시고 다음 포스팅도 기대해주세요 ♥️

#삼성SDS #BrighticsAI #BriticsStudio #macBrighticsStudio #Brightics #브라이틱스 #Brightics서포터즈 #서포터즈 #발대식 #모델링 #데이터분석 #데이터사이언티스트 #삼성서포터즈 #대외활동 #대외활동추천 #데이터분석대외활동 #대학생대외활동 #데이콘 #삼성 #삼성대외활동 #서로이웃 #좋아요 #유튜브 #분석맨 #구해줘분석 #카드뉴스 #파이썬