About IT Tutorials

About IT Tutorials

  • 분류 전체보기 (45)
    • Programming Tutorial (29)
      • Python (18)
      • C# (0)
      • Git (4)
    • Data Science (14)
      • Kaggle Kernel Review (0)
      • Statistics (1)
    • Machine Vision (2)
      • OpenCV (0)
    • 사는 이야기 (0)
      • 여행 후기 (0)
      • Minimal life (0)
  • 홈
  • 태그
  • 방명록
RSS 피드
로그인
로그아웃 글쓰기 관리

About IT Tutorials

컨텐츠 검색

태그

데이터 분석 Anaconda numpy Python Data Analysis 파이썬 딥러닝 프로그래밍 데이터 과학 Data Science 판다스 Programming 데이터과학 설치 머신러닝 git 마크다운 pandas machine learning 데이터분석

최근글

댓글

공지사항

아카이브

분류 전체보기(45)

  • Mark down 문법 정리하기_#1 스타일링 텍스트

    2022.10.30
  • time series decomposition에 대해서

    2022.10.08
  • 데이터에서 이상치를 찾아보자 "1. EDA"

    2022.09.25
  • One Hot Encoding 과 Label Encoding 을 비교해보자

    2020.09.03
  • Euclidean Distance에 대해서 알아보자..(간략히..)

    2020.07.19
  • 왜 Normalize 해야만 할까??

    2020.07.19
Mark down 문법 정리하기_#1 스타일링 텍스트

Styling text 출처 : Github Doc 구 분 문법 단축키 작성 예시 Bold ** ** or __ __ Command+B (Mac) or Ctrl+B (Windows/Linux) **This is bold text** Italic * * or _ _ Command+I (Mac) or Ctrl+I (Windows/Linux) *This text is italicized* Strikethrough ~~ ~~ ~~This was mistaken text~~ Bold and nested italic ** ** and _ _ **This text is _extremely_ important** All bold and italic *** *** ***All this text is important**..

2022. 10. 30. 16:25
time series decomposition에 대해서

잠시 방향을 틀어서 시계열 데이터에 대한 decomposition에 대해서 알아보자. 시계열 데이터라고 하면 분명히 여러 요소의 복합적으로 나타나는 걸거다. 예를 들어 주식에 빗대어 보면, A라는 주식이 왜 이 시간대에 오르는 추세를 일정 시간 동안 보이는가? 를 고찰 해봤을때 FED가 시장에 유동성을 확 풀어서 그럴 수도.. A라는 회사의 실적이 예상밖에 잘나와서 그럴 수도.. 혹은 A라는 회사의 제품이 시즌을 타는 제품인데 해당 시즌이 다가와서 다음 분기 실적이 좋을 것으로 예상 되기 때문 일수도 있다. 당연히 그 이외의 원인들이 많겠지만 결국 시계열 데이터가 보여 줄 수 있는 정보를 분해해서 보게 되면 좀 더 분석자가 쉽고 빠르게 받아 들일수 있는 것 아니겠는가? 그럼 분해 할 수 있는 요소는 무엇..

2022. 10. 8. 19:45
데이터에서 이상치를 찾아보자 "1. EDA"

* anomaly / outlier란? 평소 데이터에서 거리가 먼 녀석, 특이한 녀석이라고 생각하면 되겠다. 보통은 이런 녀석들이 실제 우리 real-life에서 문제를 일으키는 녀석들이다. 예를 들면 본인이 무언가를 관리하는 엔지니어라고 생각해보자. 실질적으로 엔지니어의 메인 role중 하나는 이러한 이상치를 모니터링 하고 억제하기 위한 행위이지 않는가? 하다 못해 갑자기 내 주식 계좌가 녹으면 그것 또한 이런 케이스에 빗댈 수도 있겠다. 우선 이러한 이상치 찾는 문제는 3가지로 볼수 있다. 1. Supervised : 쉽게 말해서 데이터 내에 이것 이상치, 이건 정상치가 아니란 라벨이 다 나와있는 것 들이다. 족보가 있고 원리를 학습해서 새로운 문제에 대응하는 개념으로 보면 되겠다. Classific..

2022. 9. 25. 20:04
One Hot Encoding 과 Label Encoding 을 비교해보자

One-Hot Encoding이란 무엇인가. 언제 우리는 Label Encoding 대신 One-Hot Encoding을 써야하는가? 데이터 과학에 일반적인 인터뷰 질문이며, 데이터 과학자는 반드시 알아야 하는 내용이다. 결론적으로 당신은 이 두가지중에 하나를 데이터 과제에 써야하는 선택의 기로에 서게 될 것이기 때문이다. 머신은 숫자를 이해하지 텍스트를 이해하진 못한다. 우리는 텍스트로 이루어진 개별 Category를 머신이 알아먹고 수학적인 식을 통해서 연산 할수 있도록 변환 해줘야 하는 것 이라고 이해하면 빠르겠다. 그렇다면 어떻게 이걸 할수 있고, 방법은 어떻게 다른지 보도록 하자!!~ Label Encoding과 One-Hot Encoding이 그림속에 있는 걸 알수 있다. 이번 포스트에서는 이..

2020. 9. 3. 23:11
Euclidean Distance에 대해서 알아보자..(간략히..)

아주 Simple하게 설명하고자 하니 주의 바란다. 두개의 점이 있다. (q1, q2), (p1,p2) 이렇게 가정해보자. 여기서 Euclidean Distance의 정의 Simple 하다.. 그런데 수식으로 처리하기에 귀찮을 수 있겠다. 제곱이라든지 뺄셈, Root연산등을 다 해줘야 하나?.. 이런 귀차니즘이 발동할때는 라이브러리를 활용하는 것이 맞겠다. 위 정의보다 좀 더 효율적이고 빠르게 이미 다른 사람들이 만들어 놓은 것을 활용해야 되지 않겠는가. scipy 라이브러리를 아래와 같이 활용하면 손쉽게 계산 할 수 있다. from scipy.spatial import distance first_listing = [-0.596544, -0.439151] second_listing = [-0.596544..

2020. 7. 19. 20:33
왜 Normalize 해야만 할까??

유명한 Air Bnb의 dataset을 보면 위와 같은 정보들이 있다.. 필자와 같이 가정을 해보자 해당 Dataset중 위의 Data를 사용해서 K-mean Cluster 기법을 사용한 분석을 하고 싶다고 말이다. 일단 눈에 띄는 것은 변수들의 크기와 변화량이다. 수가 아닌 Data도 수로 변환하여 분석하는 것이 Machine Learning의 보편적인 방법인데.. Maximum_nights가 다른 변수에 비해서 많이 숫자가 크고 변화가 심한 것을 볼수 있다. Feature의 가중치등을 부여하는 작업을 하더라도 당연히 숫자 자체적으로 Maximum_nights의 정보가 분석결과에 너무나 많은 impact를 줄것은 사실 알고리즘을 이해하지 못해도 어느정도 예측이 가능하다. 이것 정말 우리가 원하는 상황은..

2020. 7. 19. 16:42
1 2 3 4 ··· 8
티스토리
© 2018 T-Story. All right reserved.

티스토리툴바