Wat is de methode describe() van pandas DataFrame?
De Python pandas-functie DataFrame.describe() wordt gebruikt om een statistisch overzicht te genereren van de numerieke kolommen in een DataFrame. Dit overzicht bevat belangrijke statistische maatstaven zoals gemiddelde, standaardafwijking, minimum, maximum en verschillende percentielen.
Wat is de syntaxis voor de functie describe() van pandas?
De basissyntaxis van describe() voor DataFrames is eenvoudig. Het ziet er als volgt uit:
DataFrame.describe(percentiles=None, include=None, exclude=None)pythonBelangrijke parameters voor pandas’ DataFrame.describe()
Met behulp van de volgende parameters kunt u de uitvoer van describe() aanpassen:
| Parameter | Beschrijving | Standaardwaarde |
|---|---|---|
percentiles
|
Geeft een overzicht van de percentielen die in het overzicht moeten worden opgenomen. | [.25, .5, .75]
|
include
|
Geeft aan welke gegevenstypen in de beschrijving moeten worden opgenomen; mogelijke waarden zijn numpy.number, numpy.object, all of None
|
None
|
exclude
|
Geeft aan welke gegevenstypen moeten worden uitgesloten van de beschrijving; werkt hetzelfde als de parameter include.
|
None
|
Voorbeelden van het gebruik van pandas describe()
Als u snel een overzicht wilt krijgen van de belangrijkste statistische gegevens van een dataset, is de functie pandas DataFrame.describe() uiterst nuttig.
Voorbeeld 1: Statistisch overzicht van numerieke gegevens
In het volgende voorbeeld bekijken we DataFrame df, dat verschillende soorten verkoopgegevens bevat.
import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
'Product': ['A', 'B', 'C', 'D', 'E'],
'Quantity': [10, 20, 15, 5, 30],
'Price': [100, 150, 200, 80, 120],
'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)pythonNu kunt u pandas describe() gebruiken om een statistisch overzicht te krijgen van de numerieke gegevens in de kolommen:
summary = df.describe()
print(summary)pythonDe uitvoer van de functie pandas DataFrame.describe() is als volgt:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
25% 10.000000 100.000000 1000.000000
50% 15.000000 120.000000 3000.000000
75% 20.000000 150.000000 3000.000000
max 30.000000 200.000000 3600.000000De belangrijkste statistieken die in de uitvoer worden weergegeven, zijn:
count: Aantal niet-NaN-vermeldingen (Not a Number)mean: Gemiddelde van de waarden (ook toegankelijk via DataFrame.mean())std: Standaardafwijking van de waardenmin,25%,50%,75%,max: Minimum, 25e percentiel, mediaan (50e percentiel), 75e percentiel en maximumwaarden
Voorbeeld 2: Percentielen aanpassen
U kunt de percentielen in de pandas DataFrame.describe() -uitvoer aanpassen met de parameter percentiles:
# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)pythonDeze functieaanroep levert de volgende uitvoer op:
Quantity Price Revenue
count 5.000000 5.000000 5.000000
mean 16.000000 130.000000 2200.000000
std 9.617692 46.904158 1407.124728
min 5.000000 80.000000 400.000000
10% 7.000000 88.000000 640.000000
50% 15.000000 120.000000 3000.000000
90% 26.000000 180.000000 3360.000000
max 30.000000 200.000000 3600.000000In de uitvoer zijn 10%, 50% en 90% opgenomen in plaats van de standaardpercentielen die in het vorige voorbeeld werden weergegeven.