Pandas ist eine leistungsstarke Open-Source-Bibliothek für Datenmanipulation und -analyse in Python. Eine der häufigsten Aufgaben bei der Arbeit mit Daten ist das Hinzufügen einer neuen Spalte zu einem DataFrame. In diesem Artikel werden wir uns anschauen, wie man mithilfe von Pandas eine Spalte zu einem DataFrame hinzufügen kann.
Grundlagen der Pandas DataFrame
Bevor wir lernen, wie man eine Spalte zu einem DataFrame hinzufügt, werfen wir einen Blick auf die Grundlagen des Pandas DataFrame.
Ein DataFrame ist eine zweidimensionale Datenstruktur, ähnlich einer Tabelle oder einer SQL-Datenbanktabelle. Es besteht aus einem Raster von Zeilen und Spalten und kann verschiedene Datentypen enthalten. Die Spalten in einem DataFrame stellen verschiedene Variablen oder Merkmale dar, während die Zeilen einzelne Datensätze repräsentieren.
Pandas bietet eine einfache und effiziente Methode, um Daten zu importieren, zu exportieren und zu manipulieren. Es enthält eine Vielzahl von Funktionen und Methoden, mit denen Sie Daten filtern, gruppieren, sortieren und transformieren können.
Hinzufügen einer neuen Spalte mithilfe des Zuweisungsoperators
Der einfachste Weg, eine neue Spalte zu einem DataFrame hinzuzufügen, besteht darin, den Zuweisungsoperator zu verwenden. Mit diesem Operator können wir eine neue Spalte erstellen und ihr einen Namen und einen Wert zuweisen.
Hier ist ein Beispiel:
“’python
import pandas as pd
# Erstellen eines DataFrame
data = {‚Name‘: [‚Max‘, ‚Lisa‘, ‚Tom‘],
‚Alter‘: [25, 30, 35]}
df = pd.DataFrame(data)
# Eine neue Spalte hinzufügen
df[‚Stadt‘] = [‚Berlin‘, ‚München‘, ‚Hamburg‘]
# DataFrame anzeigen
print(df)
“‘
Die Ausgabe sieht wie folgt aus:
“‘
Name Alter Stadt
0 Max 25 Berlin
1 Lisa 30 München
2 Tom 35 Hamburg
“‘
In diesem Beispiel haben wir zuerst einen DataFrame mit zwei Spalten „Name“ und „Alter“ erstellt. Anschließend haben wir eine neue Spalte „Stadt“ erstellt und ihr die Werte „Berlin“, „München“ und „Hamburg“ zugewiesen. Schließlich haben wir den aktualisierten DataFrame angezeigt.
Der Zuweisungsoperator ist eine einfache Möglichkeit, eine Spalte hinzuzufügen, wenn Sie bereits Werte für diese Spalte haben. Sie können jedoch auch eine leere Spalte erstellen und später Werte zuweisen, wie im folgenden Beispiel gezeigt:
“’python
import pandas as pd
# Erstellen eines leeren DataFrame
df = pd.DataFrame()
# Eine leere Spalte hinzufügen
df[‚Neue Spalte‘] = “
# Werte zuweisen
df[‚Neue Spalte‘] = [1, 2, 3]
# DataFrame anzeigen
print(df)
“‘
Die Ausgabe sieht wie folgt aus:
“‘
Neue Spalte
0 1
1 2
2 3
“‘
Hinzufügen einer neuen berechneten Spalte
Neben dem Hinzufügen einer neuen Spalte mit festen Werten können wir auch eine neue Spalte basierend auf bereits vorhandenen Spalten berechnen. Dies ermöglicht es uns, komplexe Transformationen und Berechnungen auf unseren Daten durchzuführen.
Hier ist ein Beispiel, in dem wir das Alter der Personen im DataFrame berechnen:
“’python
import pandas as pd
from datetime import date
# Erstellen eines DataFrame
data = {‚Name‘: [‚Max‘, ‚Lisa‘, ‚Tom‘],
‚Jahrgang‘: [1995, 1990, 1985]}
df = pd.DataFrame(data)
# Aktuelles Jahr abrufen
aktuelles_jahr = date.today().year
# Eine neue berechnete Spalte hinzufügen
df[‚Alter‘] = aktuelles_jahr – df[‚Jahrgang‘]
# DataFrame anzeigen
print(df)
“‘
Die Ausgabe sieht wie folgt aus:
“‘
Name Jahrgang Alter
0 Max 1995 26
1 Lisa 1990 31
2 Tom 1985 36
“‘
In diesem Beispiel haben wir zuerst einen DataFrame mit den Spalten „Name“ und „Jahrgang“ erstellt. Dann haben wir das aktuelle Jahr ermittelt und eine neue Spalte „Alter“ erstellt, indem wir das Alter basierend auf dem Jahrgang der Personen berechnet haben.
Andere Methoden zum Hinzufügen einer Spalte
Neben der Verwendung des Zuweisungsoperators gibt es auch andere Methoden, um eine Spalte zu einem DataFrame hinzuzufügen. Hier sind einige davon:
- ‚insert()‘: Diese Methode ermöglicht es Ihnen, eine Spalte an einer bestimmten Position einzufügen. Sie können den Index der Position angeben, an der die Spalte eingefügt werden soll, sowie den Namen der Spalte und die Werte.
“’python
import pandas as pd
# Erstellen eines DataFrame
data = {‚Name‘: [‚Max‘, ‚Lisa‘, ‚Tom‘],
‚Alter‘: [25, 30, 35]}
df = pd.DataFrame(data)
# Eine neue Spalte an Position 1 einfügen
df.insert(1, ‚Stadt‘, [‚Berlin‘, ‚München‘, ‚Hamburg‘])
# DataFrame anzeigen
print(df)
“‘
Die Ausgabe sieht wie folgt aus:
“‘
Name Stadt Alter
0 Max Berlin 25
1 Lisa München 30
2 Tom Hamburg 35
“‘
In diesem Beispiel haben wir die ‚insert()‘-Methode verwendet, um die neue Spalte „Stadt“ an Position 1 einzufügen. Die Spalte „Alter“ wird anschließend nach rechts verschoben.
- ‚assign()‘: Diese Methode ermöglicht es Ihnen, eine oder mehrere neue Spalten basierend auf bereits vorhandenen Spalten hinzuzufügen. Sie können die neuen Spalten und ihre Werte als Parameter übergeben.
“’python
import pandas as pd
# Erstellen eines DataFrame
data = {‚Name‘: [‚Max‘, ‚Lisa‘, ‚Tom‘],
‚Alter‘: [25, 30, 35]}
df = pd.DataFrame(data)
# Neue Spalte basierend auf vorhandener Spalte hinzufügen
df = df.assign(Geburtsjahr=df[‚Aktuelles Jahr‘] – df[‚Alter‘])
# DataFrame anzeigen
print(df)
“‘
Die Ausgabe sieht wie folgt aus:
“‘
Name Alter Geburtsjahr
0 Max 25 1996
1 Lisa 30 1991
2 Tom 35 1986
“‘
In diesem Beispiel haben wir die ‚assign()‘-Methode verwendet, um eine neue Spalte „Geburtsjahr“ basierend auf der Differenz zwischen der vorhandenen Spalte „Aktuelles Jahr“ und der Spalte „Alter“ hinzuzufügen.
Fazit
Das Hinzufügen einer Spalte zu einem Pandas DataFrame ist eine grundlegende Operation bei der Datenmanipulation. Mit den verschiedenen Methoden und Techniken, die wir in diesem Artikel behandelt haben, können Sie neue Spalten mit festen Werten oder basierend auf bereits vorhandenen Spalten erstellen. Das Hinzufügen von Spalten ermöglicht es Ihnen, Ihre Daten besser zu organisieren und komplexe Berechnungen durchzuführen. Wir hoffen, dass Ihnen dieser Artikel dabei geholfen hat, die verschiedenen Methoden zum Hinzufügen einer Spalte zu verstehen und in Ihren eigenen Projekten anzuwenden.