Pandas - Ontleed datarame
Bekyk die data
Een van die mees gebruikte metodes om 'n vinnige oorsig van die DataFrame te kry, is die head()
metode.
Die head()
metode gee die kopskrifte en 'n gespesifiseerde aantal rye terug, vanaf die bokant.
Voorbeeld
Kry 'n vinnige oorsig deur die eerste 10 rye van die DataFrame te druk:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
In ons voorbeelde sal ons 'n CSV-lêer genaamd 'data.csv' gebruik.
Laai data.csv af , of maak data.csv in jou blaaier oop.
Let wel: as die aantal rye nie gespesifiseer is nie, head()
sal die metode die boonste 5 rye terugstuur.
Voorbeeld
Druk die eerste 5 rye van die DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
Daar is ook 'n tail()
metode om die
laaste rye van die DataFrame te bekyk.
Die tail()
metode gee die kopskrifte en 'n gespesifiseerde aantal rye terug, vanaf die onderkant.
Voorbeeld
Druk die laaste 5 rye van die DataFrame:
print(df.tail())
Word gesertifiseer!
R10 INSKRYF
Inligting oor die data
Die DataFrames-objek het 'n metode genaamd info()
, wat jou meer inligting oor die datastel gee.
Voorbeeld
Druk inligting oor die data:
print(df.info())
Resultaat
<class 'pandas.core.frame.DataFrame'> RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64 dtypes: float64(1), int64(3) memory usage: 5.4 KB None
Resultaat verduidelik
Die resultaat vertel ons dat daar 169 rye en 4 kolomme is:
RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns):
En die naam van elke kolom, met die datatipe:
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64
Nulwaardes
Die info()
metode vertel ons ook hoeveel Nie-Nul waardes daar in elke kolom teenwoordig is, en in ons datastel lyk dit of daar 164 van 169 Nie-Nul waardes in die "Kalorieë" kolom is.
Wat beteken dat daar 5 rye met geen waarde glad nie, in die "Kalorieë" kolom, vir watter rede ook al.
Leë waardes, of nulwaardes, kan sleg wees wanneer data ontleed word, en jy moet dit oorweeg om rye met leë waardes te verwyder. Dit is 'n stap in die rigting van wat genoem word skoonmaakdata , en jy sal meer daaroor leer in die volgende hoofstukke.