아핫뉴스실시간 인기검색어
아핫뉴스 화산 이미지
화산 아이콘 11
비트코인 주기론 불확실
아하

생활

생활꿀팁

대담한봉고128
대담한봉고128

파이썬 데이터셋에 관하여 질문드립니다.

Q1). 아래의 데이터셋을 이용한 소스를 알려주시면 감사드리겠습니다.

Q2). Q1의 해당소스를 분석하여 설명해주시면 감사드리겠습니다.

seaborn 패키지의 brain_networks

- 데이터 읽어오기-

import seaborn as sns

dataset = sns.loaddataset('brainnetworks')

dataset.head()


sklearn 패키지의 당뇨병 diabetes

당뇨병 환자 각각에 대한 기준 변수, 나이, 성별, 체질량 지수, 평균 혈압, 혈청 6개 측정치를 10개 얻었으며, 기준 1년 후 질병 진행의 정량적 척도 관심 반응도 얻은 자료이다.

Samples total: 442
Dimensionality: 10
Features: real, -.2 < x <2
Targets: integer 25 – 346

- 데이터 읽어 오기 -

from sklearn.datasets import load_diabetes

diabetes = load_diabetes()

print(diabetes.data.shape)

    1개의 답변이 있어요!
    • 올곧은오리2
      올곧은오리2

      우선 데이터의 형태에 따라 어떤 종류의 그래프를 사용하는 것이 좋은지 알아보겠습니다.

      1차원 데이터 + 실수값, 실수 분포 플롯
      -> 커너밀도, 러그, rugplot, kdeplot, distplot

      카테고리별 데이터의 양 확인
      -> countplot

      다차원 데이터 (변수가 여러 개)
      -> 2차원 실수형 데이터 : 스캐터 플롯(jointplot)
      -> 3차원 이상의 실수형 데이터 : pairplot(그리드 형태로 출력)
      -> 만약 카테고리형이 포함되어 있으면 hue 속성 활용
      -> 2차원 카테고리형 데이터 : heatmap

      이런 식으로 각 데이터의 형태나 자신이 보고 싶은 그림에 맞는 plot을 그려주는 것이 중요합니다.