Hoe ontbrekende waarden te identificeren met de pandas isna()-functie
De Python pandas-functie DataFrame.isna() helpt gebruikers bij het identificeren van ontbrekende gegevens (NaN of None) in een DataFrame. Dit kan vooral handig zijn om te zien of gegevens moeten worden opgeschoond voordat met de analyse wordt begonnen.
Wat is de syntaxis voor pandas isna()?
Aangezien pandas isna() geen parameters gebruikt, is de syntaxis vrij eenvoudig:
DataFrame.isna()pythonHoe gebruik je de functie pandas isna()?
Wanneer isna() wordt toegepast op een DataFrame, wordt een nieuwe DataFrame met Booleaanse waarden gemaakt. Als een waarde in de oorspronkelijke DataFrame ontbreekt (bijvoorbeeld gemarkeerd als NaN of None), geeft isna() True weer waar de waarde zich bevindt. Anders geeft de functie False weer.
Als u naast het identificeren van NaN of None waarden deze ook wilt verwijderen, kijk dan eens naar de pandas-functie dropna(). Als u deze waarden niet wilt verwijderen, maar ze systematisch wilt vervangen, is de functie fillna() een handig hulpmiddel om dat te doen.
Ontbrekende waarden in een DataFrame identificeren
Het volgende voorbeeld maakt gebruik van een DataFrame met gegevens over verschillende personen, waarbij sommige informatie ontbreekt.
import pandas as pd
# Create DataFrame example
data = {
'Name': ['Alice', 'Bob', None, 'David'],
'Age': [25, None, 35, 40],
'City': ['Nottingham', 'London', 'Cardiff', None]
}
df = pd.DataFrame(data)
print(df)pythonHet DataFrame ziet er als volgt uit:
Name Age City
0 Alice 25.0 Nottingham
1 Bob NaN London
2 None 35.0 Cardiff
3 David 40.0 NoneDe ontbrekende informatie is gemarkeerd als None of NaN. Om precies te zien welke waarden ontbreken, kunt u isna() aanroepen op het DataFrame.
# Applying pandas isna()
missing_values = df.isna()
print(missing_values)pythonDe functie roept een nieuw DataFrame op, waarin ontbrekende waarden uit de oorspronkelijke gegevens worden gemarkeerd als True, terwijl aanwezige waarden worden gemarkeerd als False. Hier is de uitvoer:
Name Age City
0 False False False
1 False True False
2 True False False
3 False False TrueHet aantal ontbrekende waarden per kolom tellen
Het kan ook nuttig zijn om te weten hoeveel waarden er in elke kolom ontbreken, zodat u kunt beslissen hoe u hiermee omgaat. U kunt isna() samen met de functie sum() van Python gebruiken om het aantal ontbrekende waarden in elke kolom te tellen.
# Count missing values per column
missing_count = df.isna().sum()
print(missing_count)pythonDit toont u het aantal ontbrekende waarden in elke kolom:
Name 1
Age 1
City 1
dtype: int64