Data Science - Python DataFrame


Skep 'n dataraam met Pandas

'n Dataraam is 'n gestruktureerde voorstelling van data.

Kom ons definieer 'n dataraam met 3 kolomme en 5 rye met fiktiewe nommers:

Voorbeeld

import pandas as pd

d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}

df = pd.DataFrame(data=d)

print(df)

Voorbeeld Verduidelik

  • Voer die Pandas-biblioteek in as pd
  • Definieer data met kolom en rye in 'n veranderlike genaamd d
  • Skep 'n dataraam deur die funksie pd.DataFrame() te gebruik
  • Die dataraam bevat 3 kolomme en 5 rye
  • Druk die dataraamuitvoer met die print()-funksie

Ons skryf pd. voor DataFrame() om Python te laat weet dat ons die DataFrame()-funksie van die Pandas-biblioteek wil aktiveer.

Wees bewus van die hoofletter D en F in DataFrame!


Vertolking van die uitset

Dit is die uitset:

Dataraamuitvoer

Ons sien dat "col1", "col2" en "col3" die name van die kolomme is.

Moenie verwar word oor die vertikale getalle wat wissel van 0-4 nie. Hulle vertel ons die inligting oor die posisie van die rye.

In Python begin die nommering van rye met nul.

Nou kan ons Python gebruik om die kolomme en rye te tel.

Ons kan df.shape[1] gebruik om die aantal kolomme te vind:

Voorbeeld

Tel die aantal kolomme:

count_column = df.shape[1]
print(count_column)

Ons kan df.shape[0] gebruik om die aantal rye te vind:

Voorbeeld

Tel die aantal rye:

count_row = df.shape[0]
print(count_row)

Waarom kan ons nie net die rye en kolomme self tel nie?

As ons met groter datastelle met baie kolomme en rye werk, sal dit verwarrend wees om dit self te tel. Jy loop die risiko om dit verkeerd te tel. As ons die ingeboude funksies in Python korrek gebruik, verseker ons dat die telling korrek is.