Hoe filter je op unieke waarden met pandas DataFrame[].unique()
In Python pandas kunt u de functie unique() gebruiken om unieke waarden in een kolom van een DataFrame te identificeren. Zo krijgt u snel een overzicht van de verschillende waarden in uw dataset.
Wat is de syntaxis van pandas DataFrame[].unique()?
De basissyntaxis voor het gebruik van pandas unique() is eenvoudig. Dit komt omdat de functie geen parameters nodig heeft:
DataFrame['column_name'].unique()pythonHoud er rekening mee dat unique() slechts op één kolom kan worden toegepast. Voordat u de functie aanroept, moet u aangeven welke kolom u wilt evalueren. De functie unique() retourneert een numpy-array met alle verschillende waarden in de volgorde waarin ze voorkomen, waarbij dubbele waarden in de kolom worden verwijderd. De waarden worden echter niet gesorteerd.
Als u al een tijdje met Python werkt, bent u wellicht bekend met het numpy-equivalent van pandas unique(). Omwille van de efficiëntie verdient de pandas-versie doorgaans de voorkeur.
Hoe gebruik je pandas DataFrame[].unique()?
Om unique() in een pandas DataFrame te gebruiken, moet u eerst de kolom specificeren die u wilt controleren. In het volgende voorbeeld gebruiken we een DataFrame met informatie over de leeftijd en woonplaats van een groep personen.
import pandas as pd
# Create a sample DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
'Age': [24, 27, 22, 32, 29],
'City': ['Newcastle', 'London', 'Newcastle', 'Cardiff', 'London']
}
df = pd.DataFrame(data)
print(df)pythonHet resulterende DataFrame ziet er als volgt uit:
Name Age City
0 Alice 24 Newcastle
1 Bob 27 London
2 Charlie 22 Newcastle
3 David 32 Cardiff
4 Edward 29 LondonStel dat we een lijst willen maken van alle steden waar de mensen in het DataFrame wonen. We kunnen de pandas unique() functie toepassen op de kolom die de steden bevat.
# Find different cities
unique_cities = df['City'].unique()
print(unique_cities)pythonDe uitvoer is een numpy-array die elke stad één keer vermeldt, waaruit blijkt dat de personen in het DataFrame afkomstig zijn uit in totaal drie steden: Newcastle, Londen en Cardiff.
['Newcastle' 'London' 'Cardiff']