Hoe gemiddelden berekenen met pandas mean()

Inhoudsopgave

De functie DataFrame.mean() in Python pandas wordt gebruikt om gemiddelden te berekenen over een of meer assen van een DataFrame. Pandas mean() is essentieel voor het analyseren van numerieke gegevens. Naast het berekenen van gemiddelde waarden biedt het ook inzicht in de verdeling van gegevens.

Wat is de syntaxis voor `DataFrame.mean()`?

De functie pandas mean() accepteert maximaal drie parameters en heeft de volgende syntaxis:

DataFrame.mean(axis=None, skipna=True, numeric_only=None)

python

Welke parameters kunnen worden gebruikt met pandas `Dataframe.mean`?

Je kunt verschillende parameters gebruiken om de werking van pandas DataFrame.mean() aan te passen.

Parameter	Beschrijving	Standaardwaarde
`axis`	Geeft aan of de berekening wordt uitgevoerd over rijen (`axis=0`) of kolommen (`axis=1`)	`0`
`skipna`	Indien ingesteld op `True`, worden NaN-waarden genegeerd.	`True`
`numeric_only`	Als ingesteld op `True`, worden alleen numerieke gegevenstypen meegenomen in de berekening	`False`

Hoe pandas `mean()` te gebruiken

Je kunt de functie pandas DataFrame.mean() toepassen op zowel kolommen als rijen.

Gemiddelde waarden voor kolommen berekenen

Eerst gaan we een pandas DataFrame maken met wat numerieke gegevens:

import pandas as pd
data = {
    'A': [1, 2, 3, 4],
    'B': [4, 5, 6, 7],
    'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)

python

Het resulterende DataFrame ziet er als volgt uit:

A  B    C
0  1  4    7
1  2  5    8
2  3  6    9
3  4  7  10

Om het gemiddelde van elke kolom te berekenen, kunt u de pandas mean() -functie gebruiken. Standaard is de parameter axis ingesteld op 0, wat overeenkomt met kolommen.

column_means = df.mean()
print(column_means)

python

De bovenstaande code berekent het gemiddelde voor elke kolom (A, B en C) door de som van de elementen in de betreffende kolom te berekenen en deze vervolgens te delen door het aantal elementen in de kolom. Het resultaat is de volgende pandas-reeks:

A    2.5
B    5.5
C    8.5
dtype: float64

Gemiddelde waarden voor rijen berekenen

Als u het gemiddelde voor rijen wilt vinden, stelt u de parameter axis eenvoudigweg in op 1:

row_means = df.mean(axis=1)
print(row_means)

python

Pandas mean() berekent rijgemiddelden door de som van de elementen in een rij te delen door het aantal elementen dat deze rij bevat. Als je de bovenstaande functie aanroept, krijg je de volgende uitvoer:

0    4.0
1    5.0
2    6.0
3    7.0
dtype: float64

Omgaan met NaN-waarden

In dit voorbeeld gebruiken we een ander DataFrame, dat NaN-waarden bevat:

import pandas as pd
import numpy as np
data = {
    'A': [1, 2, np.nan, 4],
    'B': [4, np.nan, 6, 7],
    'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)

python

De bovenstaande code produceert het volgende DataFrame:

A    B    C
0  1.0  4.0  7.0
1  2.0  NaN  8.0
2  NaN  6.0  9.0
3  4.0  7.0  NaN

Bij het berekenen van de gemiddelden voor kolommen bepaalt de parameter skipna of NaN-waarden moeten worden meegenomen of genegeerd. Standaard is skipna ingesteld op True, dus df.mean() negeert automatisch NaN-waarden. Als u NaN-waarden wilt meenemen, moet u skipna=False als parameter toevoegen. Hierdoor zal elke kolom met ten minste één NaN-waarde NaN als gemiddelde retourneren.

mean_with_nan = df.mean() 
print(mean_with_nan)

python

Het aanroepen van df.mean() levert de volgende uitvoer op:

A    2.333333
B    5.666667
C    8.000000
dtype: float64

Gerelateerde artikelen

UndreyShutterstock

Hoe DataFrames samenvoegen met pandas merge()

De methode merge() van pandas DataFrame biedt ontwikkelaars verschillende manieren om gegevens uit verschillende bronnen te combineren. Door parameters te gebruiken, kunnen gebruikers verschillende soorten join-bewerkingen uitvoeren voor hun gegevensanalyse. In dit artikel…

Lees meer

Mr. Kosalshutterstock

Wat is Pandas fillna() en hoe gebruik je het?

De methode fillna() van Pandas is een functie die wordt gebruikt om ontbrekende waarden te verwerken. Er kunnen verschillende parameters worden gebruikt met de functie, wat flexibiliteit biedt bij het vervangen van NaN-waarden. In dit artikel bekijken we deze functie, de syntaxis…

Lees meer

Hoe ontbrekende waarden te identificeren met de pandas isna()-functie

De pandas isna()-functie is een handig hulpmiddel om ontbrekende gegevens in een DataFrame te identificeren. Met zijn eenvoudige syntaxis geeft het u snel een duidelijk overzicht van ontbrekende waarden, zodat u actie kunt ondernemen wanneer gegevens moeten worden opgeschoond. In…

Lees meer

BEST-BACKGROUNDSShutterstock

Hoe DataFrames zoeken met pandas isin()

Pandas isin() is een handige functie voor gegevensanalyse. Met zijn eenvoudige syntaxis en veelzijdige toepassingen kunt u hiermee efficiënt waarden in een DataFrame controleren. Of u nu afzonderlijke kolommen controleert, DataFrames filtert of complexere analyses met…

Lees meer

NDAB Creativityshutterstock

Wat is pandas groupby() en hoe gebruik je het?

De functie DataFrame.groupby() van pandas is een krachtig hulpmiddel voor het ordenen van gegevens. Hiermee kunt u gegevens groeperen op basis van specifieke criteria, waardoor het eenvoudiger wordt om complexe aggregaties en transformaties uit te voeren. Door deze methode…

Lees meer

UndreyShutterstock

Hoe filter je op unieke waarden met pandas DataFrame[].unique()

Met pandas DataFrame[].unique() kunt u unieke waarden in een kolom van een DataFrame identificeren. Het retourneert een numpy-array, waarmee u grote datasets efficiënter kunt verwerken. De methode is vooral handig als u een overzicht wilt hebben van de informatie in een kolom…

Lees meer

Hoe gemiddelden berekenen met pandas mean()

Wat is de syntaxis voor DataFrame.mean()?

Welke parameters kunnen worden gebruikt met pandas Dataframe.mean?

Hoe pandas mean() te gebruiken

Gemiddelde waarden voor kolommen berekenen

Gemiddelde waarden voor rijen berekenen

Omgaan met NaN-waarden

Wat is de syntaxis voor `DataFrame.mean()`?

Welke parameters kunnen worden gebruikt met pandas `Dataframe.mean`?

Hoe pandas `mean()` te gebruiken