[Pandas] 비지도학습을 위한 Custom Binary Encoding
데이터 셋에 따라 데이터 분석을 위한 조건을 만족시키는 이진값을 가진 열을 반들기 위해 레이블 인코딩과 온-핫 인코딩을 섞어 사용해야 될 수도 있습니다. 예를 한번 같이 보시겠습니다. 특정 데이터 셋에 engine_type이라는 열이 있고 그 열에는 아래와 같이 몇가지 값으로 분류되어 있습니다. obj_df["engine_type"].value_counts() ohc 148 ohcf 15 ohcv 13 l 12 dohc 12 rotor 4 dohcv 1 Name: engine_type, dtype: int64 여기서 다른거 필요없이 분류값중에 'ohc'가 있느냐 없느냐만 금번 분석에 의미가 있다고 생각해봅시다. 전제를 깔자는 거지요. 이러한 판단을 하기 위해서는 관련 산업군이나 Tech쪽에 Domain ..
2019. 7. 23. 16:59