Wat is de methode describe() van pandas DataFrame?

Inhoudsopgave

De Python pandas-functie DataFrame.describe() wordt gebruikt om een statistisch overzicht te genereren van de numerieke kolommen in een DataFrame. Dit overzicht bevat belangrijke statistische maatstaven zoals gemiddelde, standaardafwijking, minimum, maximum en verschillende percentielen.

Wat is de syntaxis voor de functie `describe()` van pandas?

De basissyntaxis van describe() voor DataFrames is eenvoudig. Het ziet er als volgt uit:

DataFrame.describe(percentiles=None, include=None, exclude=None)

python

Belangrijke parameters voor pandas’ `DataFrame.describe()`

Met behulp van de volgende parameters kunt u de uitvoer van describe() aanpassen:

Parameter	Beschrijving	Standaardwaarde
`percentiles`	Geeft een overzicht van de percentielen die in het overzicht moeten worden opgenomen.	`[.25, .5, .75]`
`include`	Geeft aan welke gegevenstypen in de beschrijving moeten worden opgenomen; mogelijke waarden zijn `numpy.number`, `numpy.object`, `all` of `None`	`None`
`exclude`	Geeft aan welke gegevenstypen moeten worden uitgesloten van de beschrijving; werkt hetzelfde als de parameter `include`.	`None`

Voorbeelden van het gebruik van pandas `describe()`

Als u snel een overzicht wilt krijgen van de belangrijkste statistische gegevens van een dataset, is de functie pandas DataFrame.describe() uiterst nuttig.

Voorbeeld 1: Statistisch overzicht van numerieke gegevens

In het volgende voorbeeld bekijken we DataFrame df, dat verschillende soorten verkoopgegevens bevat.

import pandas as pd
import numpy as np
# Example DataFrame with sales data
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)

python

Nu kunt u pandas describe() gebruiken om een statistisch overzicht te krijgen van de numerieke gegevens in de kolommen:

summary = df.describe()
print(summary)

python

De uitvoer van de functie pandas DataFrame.describe() is als volgt:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000

De belangrijkste statistieken die in de uitvoer worden weergegeven, zijn:

count: Aantal niet-NaN-vermeldingen (Not a Number)
mean: Gemiddelde van de waarden (ook toegankelijk via DataFrame.mean())
std: Standaardafwijking van de waarden
min, 25%, 50%, 75%, max: Minimum, 25e percentiel, mediaan (50e percentiel), 75e percentiel en maximumwaarden

Voorbeeld 2: Percentielen aanpassen

U kunt de percentielen in de pandas DataFrame.describe() -uitvoer aanpassen met de parameter percentiles:

# Statistical summary with custom percentiles
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)

python

Deze functieaanroep levert de volgende uitvoer op:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000

In de uitvoer zijn 10%, 50% en 90% opgenomen in plaats van de standaardpercentielen die in het vorige voorbeeld werden weergegeven.

Gerelateerde artikelen

OhSuratShutterstock

Hoe bestanden in Python laden met pandas read_csv()

Python pandas read_csv() is een krachtige functie om snel en efficiënt toegang te krijgen tot de inhoud van CSV-bestanden in Python. De functie is flexibel en biedt talrijke parameters, zodat u het laadproces kunt aanpassen aan uw behoeften. Inzicht in pandas read_csv() is…

Lees meer

Mr. Kosalshutterstock

Hoe pandas DataFrames te indexeren

Pandas DataFrame-indexering is een krachtig hulpmiddel voor efficiënte en effectieve gegevensverwerking. Met verschillende methoden kunt u specifieke gegevens en subsets van uw DataFrame targeten. In dit artikel gaan we dieper in op wat de pandas DataFrame-index is, hoe u met…

Lees meer

BEST-BACKGROUNDSShutterstock

Hoe gegevens in pandas opschonen met dropna()

De functie DataFrame.dropna() van pandas is een krachtig hulpmiddel voor het opschonen van datasets. De functie verwijdert op efficiënte wijze ontbrekende waarden en kan met verschillende parameters worden gebruikt, waardoor programmeurs verschillende vereisten voor het opschonen…

Lees meer

ESB Professionalshutterstock

Hoe je Pandas DataFrame kunt gebruiken om tabellen snel te bewerken in Python

De Pandas-module is een van de krachtigste tools voor gegevensmanipulatie in Python. Een van de centrale gegevensstructuren in Pandas is het DataFrame. DataFrames kunnen worden gebruikt om tweedimensionale, gestructureerde gegevens efficiënt te manipuleren. We leggen de structuur…

Lees meer

BEST-BACKGROUNDSShutterstock

Hoe DataFrames doorlopen met pandas iterrows()

Pandas DataFrame.iterrows() is een handige functie om door rijen in een DataFrame te lopen, vooral wanneer u gegevens rij voor rij moet verwerken. Dit is met name handig voor berekeningen of voorwaardelijke logica. In dit artikel bespreken we de syntaxis van panda iterrows() en…

Lees meer

UndreyShutterstock

Wat is de Python pandas-eigenschap iloc[]?

Bij het werken met DataFrames in Python pandas zijn niet alle rijen of kolommen van een DataFrame altijd relevant voor data-analyse. De pandas DataFrame-eigenschap iloc[] is een handig hulpmiddel voor het selecteren van rijen of kolommen op basis van hun indexen. In dit artikel…

Lees meer

Wat is de methode describe() van pandas DataFrame?

Wat is de syntaxis voor de functie describe() van pandas?

Belangrijke parameters voor pandas’ DataFrame.describe()

Voorbeelden van het gebruik van pandas describe()

Voorbeeld 1: Statistisch overzicht van numerieke gegevens

Voorbeeld 2: Percentielen aanpassen

Wat is de syntaxis voor de functie `describe()` van pandas?

Belangrijke parameters voor pandas’ `DataFrame.describe()`

Voorbeelden van het gebruik van pandas `describe()`