De Python pandas-functie DataFrame.describe() wordt gebruikt om een statistisch overzicht te genereren van de numerieke kolommen in een DataFrame. Dit overzicht bevat belangrijke statistische maatstaven zoals gemiddelde, standaardafwijking, minimum, maximum en verschillende percentielen.

Wat is de syntaxis voor de functie describe() van pandas?

De basissyntaxis van describe() voor DataFrames is eenvoudig. Het ziet er als volgt uit:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Belangrijke parameters voor pandas’ DataFrame.describe()

Met behulp van de volgende parameters kunt u de uitvoer van describe() aanpassen:

Parameter Beschrijving Standaardwaarde
percentiles Geeft een overzicht van de percentielen die in het overzicht moeten worden opgenomen. [.25, .5, .75]
include Geeft aan welke gegevenstypen in de beschrijving moeten worden opgenomen; mogelijke waarden zijn numpy.number, numpy.object, all of None None
exclude Geeft aan welke gegevenstypen moeten worden uitgesloten van de beschrijving; werkt hetzelfde als de parameter include. None

Voorbeelden van het gebruik van pandas describe()

Als u snel een overzicht wilt krijgen van de belangrijkste statistische gegevens van een dataset, is de functie pandas DataFrame.describe() uiterst nuttig.

Voorbeeld 1: Statistisch overzicht van numerieke gegevens

In het volgende voorbeeld bekijken we DataFrame df, dat verschillende soorten verkoopgegevens bevat.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Nu kunt u pandas describe() gebruiken om een statistisch overzicht te krijgen van de numerieke gegevens in de kolommen:

summary = df.describe()
print(summary)
python

De uitvoer van de functie pandas DataFrame.describe() is als volgt:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

De belangrijkste statistieken die in de uitvoer worden weergegeven, zijn:

  • count: Aantal niet-NaN-vermeldingen (Not a Number)
  • mean: Gemiddelde van de waarden (ook toegankelijk via DataFrame.mean())
  • std: Standaardafwijking van de waarden
  • min, 25%, 50%, 75%, max: Minimum, 25e percentiel, mediaan (50e percentiel), 75e percentiel en maximumwaarden

Voorbeeld 2: Percentielen aanpassen

U kunt de percentielen in de pandas DataFrame.describe() -uitvoer aanpassen met de parameter percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Deze functieaanroep levert de volgende uitvoer op:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

In de uitvoer zijn 10%, 50% en 90% opgenomen in plaats van de standaardpercentielen die in het vorige voorbeeld werden weergegeven.

Ga naar hoofdmenu