Hoe bestanden in Python laden met pandas read_csv()

Inhoudsopgave

Python pandas read_csv() is een van de meest gebruikte methoden om CSV-bestanden in pandas te lezen en op te slaan als DataFrames. CSV-bestanden (comma-separated values) zijn een veelgebruikt formaat voor het opslaan van tabelgegevens en worden door veel toepassingen ondersteund.

Wat is de syntaxis voor Python pandas `read_csv()`?

pandas.read_csv() maakt een pandas DataFrame aan op basis van een CSV-bestand. De basissyntaxis van de functie ziet er als volgt uit:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)

python

Wat zijn de belangrijkste parameters voor `pandas.read_csv()`?

pandas.read_csv() kan een breed scala aan parameters accepteren. Om het eenvoudig te houden, zullen we ons concentreren op de belangrijkste argumenten. Hier volgt een overzicht van de belangrijkste parameters die u kunt gebruiken om te specificeren hoe de functie zich moet gedragen:

Parameter	Betekenis	Standaardwaarde
`filepath_or_buffer`	Dit is een Python-string die het pad naar het CSV-bestand of een gegevensbuffer vertegenwoordigt, zoals een URL
`sep`	Dit geeft het scheidingsteken tussen waarden aan.	`,`
`header`	Geeft aan welke rij als koptekst moet worden gebruikt.	`infer` (eerste rij)
`names`	Als `header=None` is ingesteld, kunt u `names` gebruiken om een Python-lijst met kolomnamen op te geven.
`index_col`	Bepaalt welke kolom als index moet worden gebruikt.	`None`
`usecols`	Met deze parameter kunt u selecteren welke kolommen u in het DataFrame wilt laden.	`None`
`dtype`	Specificeert het gegevenstype van de kolommen.	`None`

Een uitgebreide lijst met parameters voor deze functie vindt u in de documentatie van pandas.

Stapsgewijze toegang tot CSV-bestanden

Met pandas.read_csv() kunt u in slechts enkele stappen eenvoudig gegevens uit CSV-bestanden overzetten naar Python.

In de volgende voorbeelden werken we met een CSV-bestand dat als volgt is gestructureerd:

1,John Avery,35,Nottingham,50000
2,Adelaide Smith,29,London,62000
3,Michael Rivera,41,Cardiff,40000
4,Grace Kim,33,Hull,35000
5,Tyler Johnson,28,Kent,52000

Stap 1: Importeer pandas

Importeer eerst de pandas-bibliotheek in uw Python-script.

import pandas as pd

python

Stap 2: Laad het CSV-bestand

Nu kunt u uw CSV-bestand laden in Python pandas met behulp van de functie read_csv(). Geef gewoon het bestandspad door aan de functie. In de volgende code gebruiken we een bestand met de naam data.csv, dat is opgeslagen in dezelfde map als het script:

df = pd.read_csv('data.csv')

python

De bovenstaande code slaat het bestand op in een DataFrame-object (df), waarmee we vervolgens kunnen werken. Pandas interpreteert de eerste rij automatisch als kolomkoppen, tenzij u anders aangeeft.

Stap 3: Het CSV-bestand weergeven

Het is een goed idee om de eerste paar rijen van het DataFrame te bekijken om er zeker van te zijn dat het bestand correct is geladen. Hiervoor kunt u de functie DataFrame.head() gebruiken. Standaard worden de eerste vijf rijen van het DataFrame weergegeven, zodat u snel een overzicht krijgt van de structuur van de gegevens:

print(df.head())

python

De uitvoer ziet er als volgt uit:

0  1        John Avery   35      Nottingham  	50000
1  2    Adelaide Smith   29   	 London 	    62000
2  3   Michael Rivera    41      Cardiff	   	40000
3  4        Grace Kim    33      Hull 		    35000
4  5    Tyler Johnson    28      Kent   		52000

Stap 4: Wijzig de kolomnamen (optioneel)

Als uw CSV-bestand geen koptekstrij heeft, kunt u de kolomnamen handmatig definiëren:

df = pd.read_csv('data.csv', header=None, names=['ID', 'Name', 'Age', 'City', 'Salary'])

python

In dit voorbeeld hebben we de kolommen ID, Naam, Leeftijd, Woonplaats en Salaris genoemd. De uitvoer ziet er als volgt uit:

ID                Name    	Age            City    	Salary
0  1          John Avery    	35        Nottingham    50000
1  2     Adelaide Smith    	29    	London        62000
2  3    Michael Rivera    	41        Cardiff    	40000
3  4          Grace Kim    	33        Hull        	35000
4  5     Tyler Johnson    	28        Kent        52000

Gerelateerde artikelen

BEST-BACKGROUNDSShutterstock

Hoe DataFrames doorlopen met pandas iterrows()

Pandas DataFrame.iterrows() is een handige functie om door rijen in een DataFrame te lopen, vooral wanneer u gegevens rij voor rij moet verwerken. Dit is met name handig voor berekeningen of voorwaardelijke logica. In dit artikel bespreken we de syntaxis van panda iterrows() en…

Lees meer

Mr. Kosalshutterstock

Hoe pandas DataFrames te indexeren

Pandas DataFrame-indexering is een krachtig hulpmiddel voor efficiënte en effectieve gegevensverwerking. Met verschillende methoden kunt u specifieke gegevens en subsets van uw DataFrame targeten. In dit artikel gaan we dieper in op wat de pandas DataFrame-index is, hoe u met…

Lees meer

BEST-BACKGROUNDSShutterstock

Hoe gegevens in pandas opschonen met dropna()

De functie DataFrame.dropna() van pandas is een krachtig hulpmiddel voor het opschonen van datasets. De functie verwijdert op efficiënte wijze ontbrekende waarden en kan met verschillende parameters worden gebruikt, waardoor programmeurs verschillende vereisten voor het opschonen…

Lees meer

Mr. Kosalshutterstock

Wat is Python pandas any() en hoe werkt het?

In pandas is de DataFrame any()-methode een efficiënt hulpmiddel om snel te controleren of er ten minste één ware waarde langs een as van een DataFrame aanwezig is. Deze methode is vooral nuttig voor gegevensanalyse en validatie. In dit artikel laten we u zien wat de syntaxis…

Lees meer

ESB Professionalshutterstock

Hoe je Pandas DataFrame kunt gebruiken om tabellen snel te bewerken in Python

De Pandas-module is een van de krachtigste tools voor gegevensmanipulatie in Python. Een van de centrale gegevensstructuren in Pandas is het DataFrame. DataFrames kunnen worden gebruikt om tweedimensionale, gestructureerde gegevens efficiënt te manipuleren. We leggen de structuur…

Lees meer

UndreyShutterstock

Wat is de Python pandas-eigenschap iloc[]?

Bij het werken met DataFrames in Python pandas zijn niet alle rijen of kolommen van een DataFrame altijd relevant voor data-analyse. De pandas DataFrame-eigenschap iloc[] is een handig hulpmiddel voor het selecteren van rijen of kolommen op basis van hun indexen. In dit artikel…

Lees meer

Hoe bestanden in Python laden met pandas read_csv()

Wat is de syntaxis voor Python pandas read_csv()?

Wat zijn de belangrijkste parameters voor pandas.read_csv()?

Stapsgewijze toegang tot CSV-bestanden

Stap 1: Importeer pandas

Stap 2: Laad het CSV-bestand

Stap 3: Het CSV-bestand weergeven

Stap 4: Wijzig de kolomnamen (optioneel)

Wat is de syntaxis voor Python pandas `read_csv()`?

Wat zijn de belangrijkste parameters voor `pandas.read_csv()`?