In Python pandas kunt u de functie unique() gebruiken om unieke waarden in een kolom van een DataFrame te identificeren. Zo krijgt u snel een overzicht van de verschillende waarden in uw dataset.

Wat is de syntaxis van pandas DataFrame[].unique()?

De basissyntaxis voor het gebruik van pandas unique() is eenvoudig. Dit komt omdat de functie geen parameters nodig heeft:

DataFrame['column_name'].unique()
python

Houd er rekening mee dat unique() slechts op één kolom kan worden toegepast. Voordat u de functie aanroept, moet u aangeven welke kolom u wilt evalueren. De functie unique() retourneert een numpy-array met alle verschillende waarden in de volgorde waarin ze voorkomen, waarbij dubbele waarden in de kolom worden verwijderd. De waarden worden echter niet gesorteerd.

Opmerking

Als u al een tijdje met Python werkt, bent u wellicht bekend met het numpy-equivalent van pandas unique(). Omwille van de efficiëntie verdient de pandas-versie doorgaans de voorkeur.

Hoe gebruik je pandas DataFrame[].unique()?

Om unique() in een pandas DataFrame te gebruiken, moet u eerst de kolom specificeren die u wilt controleren. In het volgende voorbeeld gebruiken we een DataFrame met informatie over de leeftijd en woonplaats van een groep personen.

import pandas as pd
# Create a sample DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Edward'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['Newcastle', 'London', 'Newcastle', 'Cardiff', 'London']
}
df = pd.DataFrame(data)
print(df)
python

Het resulterende DataFrame ziet er als volgt uit:

Name  	Age       City
0    Alice    	24    	Newcastle
1    Bob    	27  		London
2  Charlie    	22    	Newcastle
3    David    	32    	Cardiff
4   Edward    	29  		London

Stel dat we een lijst willen maken van alle steden waar de mensen in het DataFrame wonen. We kunnen de pandas unique() functie toepassen op de kolom die de steden bevat.

# Find different cities
unique_cities = df['City'].unique()
print(unique_cities)
python

De uitvoer is een numpy-array die elke stad één keer vermeldt, waaruit blijkt dat de personen in het DataFrame afkomstig zijn uit in totaal drie steden: Newcastle, Londen en Cardiff.

['Newcastle' 'London' 'Cardiff']
Ga naar hoofdmenu