Pandas - Ontleed datarame


Bekyk die data

Een van die mees gebruikte metodes om 'n vinnige oorsig van die DataFrame te kry, is die head()metode.

Die head()metode gee die kopskrifte en 'n gespesifiseerde aantal rye terug, vanaf die bokant.

Voorbeeld

Kry 'n vinnige oorsig deur die eerste 10 rye van die DataFrame te druk:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

In ons voorbeelde sal ons 'n CSV-lêer genaamd 'data.csv' gebruik.

Laai data.csv af , of maak data.csv in jou blaaier oop.

Let wel: as die aantal rye nie gespesifiseer is nie, head()sal die metode die boonste 5 rye terugstuur.

Voorbeeld

Druk die eerste 5 rye van die DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

Daar is ook 'n tail()metode om die laaste rye van die DataFrame te bekyk.

Die tail()metode gee die kopskrifte en 'n gespesifiseerde aantal rye terug, vanaf die onderkant.

Voorbeeld

Druk die laaste 5 rye van die DataFrame:

print(df.tail()) 

w3schools CERTIFIED . 2021

Word gesertifiseer!

Voltooi die Pandas-modules, doen die oefeninge, neem die eksamen, en jy sal w3schools-gesertifiseer word!

R10 INSKRYF

Inligting oor die data

Die DataFrames-objek het 'n metode genaamd info(), wat jou meer inligting oor die datastel gee.

Voorbeeld

Druk inligting oor die data:

print(df.info()) 

Resultaat

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

Resultaat verduidelik

Die resultaat vertel ons dat daar 169 rye en 4 kolomme is:

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

En die naam van elke kolom, met die datatipe:

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

Nulwaardes

Die info()metode vertel ons ook hoeveel Nie-Nul waardes daar in elke kolom teenwoordig is, en in ons datastel lyk dit of daar 164 van 169 Nie-Nul waardes in die "Kalorieë" kolom is.

Wat beteken dat daar 5 rye met geen waarde glad nie, in die "Kalorieë" kolom, vir watter rede ook al.

Leë waardes, of nulwaardes, kan sleg wees wanneer data ontleed word, en jy moet dit oorweeg om rye met leë waardes te verwyder. Dit is 'n stap in die rigting van wat genoem word skoonmaakdata , en jy sal meer daaroor leer in die volgende hoofstukke.