
안녕하세요?
삼성SDS Brightics 서포터즈 김혜현입니다 😊
여러분 요즘 뭐하시며 하루를 보내시나요?
개강하신 분들도 계시고, 휴학하신 분들도 계실텐데요 !!
요즘 시간이 정말 너무 빠르게 지나가는것 같아용..🥺
이번 포스팅에서는
"스마트폰을 이용한 사용자 행동인식 데이터 셋"의 전처리를 진행할거예요 ❗️
"스마트폰을 이용한 사용자 행동인식 데이터 셋"은
특이하게도
features.txt에 피쳐명이 담겨있습니다 🥺
이를 X_train 과 X_test에 적용시켜주어야하는데요 !!
하지만
Brightics Studio에서 데이터를 불러오면
첫번째 로우를 컬럼으로 인식한다는 점 .. !!!
그래서 부득이하게 이번 프로젝트에서는
파이썬으로 전처리를 해주었습니다 ㅠ
데이터 전처리
전처리 하기에 앞서 데이터를 살펴보는 과정에서
features.txt에 중복되는 값이 있음을 확인하였고
중복되는 값에 _1, _2를 더해줌으로서 중복되는 값이
없도록 해주면 좋을 것 같다는 생각이 들었습니다 ❗️
그리하여 파이썬으로 중복되는 피처에
_1, _2를 붙여 구별해주는 작업을 해주었습니다.
해당 과정은 Brightics에서도 가능하답니다 !!!
Brightics Studio와 파이썬을 직접적으로 비교하기 위해
전처리 부분은 파이썬으로 진행해보았습니다 😊
가장 먼저 눈에 보이는 것은
파이썬은 라이브러리를 불러와 주어야 힌다는 점 !!!!
파이썬으로 전처리를 ㅎ게 된 실질적인 목적인
X_train.txt와 X_test.txt에 전처리한 피쳐명을 적용시켜 주었습니다.
Brightics Studio의 컬럼은 알파벳, 숫자, '_'로만
이루어져야 하기 때문에 이를 전처리하는 과정도 진행하였습니다 :)
전처리 후 텍스트 파일로 저장해주고
Brightics Studio로 불러와 주었습니다 !!
파이썬을 사용하고 Brightics Studio를 사용하니
더욱 반갑게 느껴지는 것 같아용 ...ㅎㅎㅎㅎ
전처리를 진행하니 오류없이 데이터가 잘 불러와졌네요 ㅎㅎ !!!
y_train의 action값을 확인해보면 심하게 왜곡되지 않고
비교적 골고루 분포되어 있는 것 또한 확인하였습다:)

다들 즐거운 설 연휴 보내시고 다음 포스팅도 기대해주세요 ♥️
#삼성SDS #BrighticsAI #BriticsStudio #macBrighticsStudio #Brightics #브라이틱스 #Brightics서포터즈 #서포터즈 #발대식 #모델링 #데이터분석 #데이터사이언티스트 #삼성서포터즈 #대외활동 #대외활동추천 #데이터분석대외활동 #대학생대외활동 #데이콘 #삼성 #삼성대외활동 #서로이웃 #좋아요 #유튜브 #분석맨 #구해줘분석 #카드뉴스 #파이썬