Hoe bestanden in Python laden met pandas read_csv()
Python pandas read_csv() is een van de meest gebruikte methoden om CSV-bestanden in pandas te lezen en op te slaan als DataFrames. CSV-bestanden (comma-separated values) zijn een veelgebruikt formaat voor het opslaan van tabelgegevens en worden door veel toepassingen ondersteund.
Wat is de syntaxis voor Python pandas read_csv()?
pandas.read_csv() maakt een pandas DataFrame aan op basis van een CSV-bestand. De basissyntaxis van de functie ziet er als volgt uit:
import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)pythonWat zijn de belangrijkste parameters voor pandas.read_csv()?
pandas.read_csv() kan een breed scala aan parameters accepteren. Om het eenvoudig te houden, zullen we ons concentreren op de belangrijkste argumenten. Hier volgt een overzicht van de belangrijkste parameters die u kunt gebruiken om te specificeren hoe de functie zich moet gedragen:
| Parameter | Betekenis | Standaardwaarde |
|---|---|---|
filepath_or_buffer
|
Dit is een Python-string die het pad naar het CSV-bestand of een gegevensbuffer vertegenwoordigt, zoals een URL | |
sep
|
Dit geeft het scheidingsteken tussen waarden aan. | ,
|
header
|
Geeft aan welke rij als koptekst moet worden gebruikt. | infer (eerste rij)
|
names
|
Als header=None is ingesteld, kunt u names gebruiken om een Python-lijst met kolomnamen op te geven.
|
|
index_col
|
Bepaalt welke kolom als index moet worden gebruikt. | None
|
usecols
|
Met deze parameter kunt u selecteren welke kolommen u in het DataFrame wilt laden. | None
|
dtype
|
Specificeert het gegevenstype van de kolommen. | None
|
Een uitgebreide lijst met parameters voor deze functie vindt u in de documentatie van pandas.
Stapsgewijze toegang tot CSV-bestanden
Met pandas.read_csv() kunt u in slechts enkele stappen eenvoudig gegevens uit CSV-bestanden overzetten naar Python.
In de volgende voorbeelden werken we met een CSV-bestand dat als volgt is gestructureerd:
1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000Stap 1: Importeer pandas
Importeer eerst de pandas-bibliotheek in uw Python-script.
import pandas as pdpythonStap 2: Laad het CSV-bestand
Nu kunt u uw CSV-bestand laden in Python pandas met behulp van de functie read_csv(). Geef gewoon het bestandspad door aan de functie. In de volgende code gebruiken we een bestand met de naam data.csv, dat is opgeslagen in dezelfde map als het script:
df = pd.read_csv('data.csv')pythonDe bovenstaande code slaat het bestand op in een DataFrame-object (df), waarmee we vervolgens kunnen werken. Pandas interpreteert de eerste rij automatisch als kolomkoppen, tenzij u anders aangeeft.
Stap 3: Het CSV-bestand weergeven
Het is een goed idee om de eerste paar rijen van het DataFrame te bekijken om er zeker van te zijn dat het bestand correct is geladen. Hiervoor kunt u de functie DataFrame.head() gebruiken. Standaard worden de eerste vijf rijen van het DataFrame weergegeven, zodat u snel een overzicht krijgt van de structuur van de gegevens:
print(df.head())pythonDe uitvoer ziet er als volgt uit:
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000Stap 4: Wijzig de kolomnamen (optioneel)
Als uw CSV-bestand geen koptekstrij heeft, kunt u de kolomnamen handmatig definiëren:
df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])pythonIn dit voorbeeld hebben we de kolommen ID, Naam, Leeftijd, Woonplaats en Salaris genoemd. De uitvoer ziet er als volgt uit:
ID Name Age City Salary
0 1 John Avery 35 Nottingham 50000
1 2 Adelaide Smith 29 London 62000
2 3 Michael Rivera 41 Cardiff 40000
3 4 Grace Kim 33 Hull 35000
4 5 Tyler Johnson 28 Kent 52000