Как вставить столбец в фрейм данных Pandas
Часто вам может понадобиться вставить новый столбец в pandas DataFrame. К счастью, это легко сделать с помощью функции вставки () pandas, которая использует следующий синтаксис:
вставка (local, столбец, значение, allow_duplicates = False)
- loc: Индекс для вставки столбца. Первый столбец равен 0.
- столбец: Имя для нового столбца.
- value: Массив значений для нового столбца.
- allow_duplicates: разрешить или запретить совпадение имени нового столбца с именем существующего столбца. По умолчанию — Ложь.
В этом руководстве показано несколько примеров использования этой функции на практике.
Пример 1: вставить новый столбец в качестве первого столбца
Следующий код показывает, как вставить новый столбец в качестве первого столбца существующего DataFrame:
import pandas as pd #create DataFrame df = pd.DataFrame() #view DataFrame df points assists rebounds 0 25 5 11 1 12 7 8 2 15 7 10 3 14 9 6 4 19 12 6 #insert new column 'player' as first column player_vals = ['A', 'B', 'C', 'D', 'E'] df.insert (loc= 0 , column='player', value=player_vals) df player points assists rebounds 0 A 25 5 11 1 B 12 7 8 2 C 15 7 10 3 D 14 9 6 4 E 19 12 6
Пример 2. Вставьте новый столбец в качестве среднего столбца
Следующий код показывает, как вставить новый столбец в качестве третьего столбца существующего DataFrame:
import pandas as pd #create DataFrame df = pd.DataFrame() #insert new column 'player' as third column player_vals = ['A', 'B', 'C', 'D', 'E'] df.insert (loc= 2 , column='player', value=player_vals) df points assists player rebounds 0 25 5 A 11 1 12 7 B 8 2 15 7 C 10 3 14 9 D 6 4 19 12 E 6
Пример 3: вставить новый столбец в качестве последнего столбца
Следующий код показывает, как вставить новый столбец в качестве последнего столбца существующего DataFrame:
import pandas as pd #create DataFrame df = pd.DataFrame() #insert new column 'player' as last column player_vals = ['A', 'B', 'C', 'D', 'E'] df.insert (loc= len(df.columns) , column='player', value=player_vals) df points assists player rebounds 0 25 5 A 11 1 12 7 B 8 2 15 7 C 10 3 14 9 D 6 4 19 12 E 6
Обратите внимание, что использование len(df.columns) позволяет вставить новый столбец в качестве последнего столбца в любом фрейме данных, независимо от того, сколько столбцов в нем может быть.
Вы можете найти полную документацию по функции insert() здесь .
4 способа добавления колонок в датафреймы Pandas
Pandas — это библиотека для анализа и обработки данных, написанная на языке Python. Она предоставляет множество функций и способов для управления табличными данными. Основная структура данных Pandas — это датафрейм, который хранит информацию в табличной форме с помеченными строками и столбцами.
В контексте данных строки представляют собой утверждения, или точки данных. Столбцы отражают свойства, или атрибуты утверждений. Рассмотрим эту структуру на простом примере. Допустим, каждая строка — это дом. В таком случае, столбцы заключают в себе сведения об этом доме (его возрасте, количестве комнат, стоимости и т.д.).
Добавление или удаление столбцов — обычная операция при анализе данных. Ниже мы разберем 4 различных способа добавления новых столбцов в датафрейм Pandas.
Сначала создадим простой фрейм данных для использования в примерах:
import numpy as np
import pandas as pddf = pd.DataFrame( "B": [5, 6, 7, 8]>)df
Способ 1-й
Пожалуй, это самый распространенный путь создания нового столбца в Pandas:
df["C"] = [10, 20, 30, 40]df
Мы указываем имя столбца подобно тому, как выбираем столбец во фрейме данных. Затем этому столбцу присваиваются значения. Новый столбец добавляется последним (т. е. становится столбцом с самым высоким индексом).
Можно добавить сразу несколько столбцов. Их наименования перечисляются списком, а значения должны быть двумерными для совместимости с количеством строк и столбцов. Например, следующий код добавляет три столбца, заполненные случайными целыми числами от 0 до 10:
df[["1of3", "2of3", "3of3"]] = np.random.randint(10, size=(4,3))df
Давайте удалим эти три столбца, прежде чем перейти к следующему методу.
df.drop(["1of3", "2of3", "3of3"], axis=1, inplace=True)
Способ 2-й
В первом способе мы добавляли новый столбец в конец. Pandas также позволяет добавлять столбцы по определенному индексу. Для настройки расположения нового столба воспользуемся функцией вставки (insert function). Давайте добавим один столбец рядом с А:
df.insert(1, "D", 5)df
Для использования функции вставки необходимо 3 параметра: индекс, имя столбца и значение. Индексы столбцов начинаются с 0, поэтому мы устанавливаем параметр индекса 1, чтобы добавить новый столбец рядом со столбцом A. Мы можем указать постоянное значение, которое будет выставлено во всех строках.
Способ 3-й
Функция loc позволяет выбирать строки и столбцы, используя их метки. Таким же образом можно создать новый столбец:
df.loc[:, "E"] = list("abcd")df
Для выбора строк и столбцов мы указываем нужные метки. Если хотим выбрать все строки, ставим двоеточие. В части таблицы, где нужно проставить столбец, указываем метки столбцов, которые нам необходимо выбрать. Поскольку в датафрейме нет столбца E, Pandas создаст новый столбец.
Способ 4-й
Добавить столбцы можно также с помощью функции assign :
df = df.assign(F = df.C * 10)df
В функции assign необходимо прописать имя столбца и значения. Обратите внимание: мы получаем значения, используя другой столбец во фрейме данных. Предыдущие способы также допускают такую операцию.
Надо понимать, что между функциями assign и insert есть существенное различие.
Функция вставки ( insert ) работает на месте. Это означает, что изменение (добавление нового столбца) сохраняется во фрейме данных.
С функцией назначения ситуация немного иная. Он возвращает измененный фрейм данных, но не изменяет исходный. Чтобы использовать измененную версию (с новым столбцом), нам нужно явно назначить ее.
Заключение
Мы рассмотрели 4 различных способа добавления новых столбцов в фрейм данных Pandas. Это обычная операция при анализе и обработке данных.
Мне нравится пользоваться библиотекой Pandas, поскольку она предоставляет, как правило, несколько способов для выполнения одной задачи. По-моему, это говорит о гибкости и универсальности Pandas.
- 3 функции Pandas для группировки и агрегирования данных
- 7 полезных операций в Pandas при работе с DataFrame
- Новая библиотека превосходит Pandas по производительности
7 основных способов для управления столбцами в Pandas
Когда дело доходит до анализа данных, Pandas является наиболее используемой библиотекой Python для обработки и подготовки данных для дальнейшего анализа и машинного обучения.
Реальность такова, что Pandas — действительно гибкая библиотека, и её можно использовать даже для преобразования форматов файлов.
Однако, даже если мы используем некоторые функции Pandas едва ли не каждый день, мы тратим много времени на интернет-сёрфинг (поиск ответов на то, как что-то сделать в Pandas?).
Но давайте будем честными: некоторые функции трудно запомнить потому, что мы можем достичь одной и той же цели разными способами. Так что нечего стыдиться, если мы каждый день гуглим одни и те же вещи.
Тем не менее, экономия времени — это всегда хорошая идея. По этой причине в этой статье мы рассмотрим 7 основных способов для управления столбцами в Pandas. Таким образом, вам больше не нужно будет их гуглить: вам просто нужно сохранить эту статью (возможно, в закладках) и возвращаться к ней всякий раз, когда она вам понадобится.
Вот что вы найдете здесь:
Как создать новый столбец в Pandas
Как переименовать столбец в Pandas
Как добавить новый столбец во фрейм данных Pandas
Как удалить столбец в Pandas
Как найти уникальные значения в столбце Pandas
Как преобразовать столбец Pandas в список
Как отсортировать фрейм данных Pandas по столбцам
Как создать новый столбец в Pandas
Прежде всего, давайте вспомним, что столбец Pandas также называется Pandas Series. Это означает, что фрейм данных Pandas представляет собой упорядоченный набор рядов.
Есть несколько способов создать новый столбец Pandas. Давайте посмотрим их все!
Создайте столбец Pandas как Pandas Series
Правильный метод создания столбца Pandas, который, как считается, «живёт» сам по себе, — это метод Series, который мы рассматриваем ниже:
# Create a Pandas series series = pd.Series([6, 12, 18, 24]) # Print Pandas series print(series) >>> 0 6 1 12 2 18 3 24 dtype: int64
Я сказал «правильный метод», потому что, как мы уже говорили, столбец Pandas — это то же самое что Pandas Series. Итак, если нам нужен только один столбец, мы должны использовать этот метод, если нам хочется быть «формально правильными».
Создайте столбец Pandas как фрейм данных Pandas
Однако реальность такова, что столбец сам по себе нам понадобится нечасто.
Итак, ещё один способ создать столбец в Pandas — создать новый фрейм данных только с одним столбцом: таким образом, мы могли бы мгновенно обогатить его другими столбцами.
Мы можем сделать это так:
import pandas as pd # Create a Pandas column as a Pandas data frame df = pd.DataFrame(<'A': [1, 2, 3, 4]>) # Print Pandas data frame print(df) >>> A 0 1 1 2 2 3 3 4'A':>
Отличие от предыдущего примера в том, что в этом случае столбец Pandas также имеет имя. В данном случае мы назвали его «А».
ПРИМЕЧАНИЕ: Если мы более внимательно посмотрим на то, что мы здесь сделали, увидим, что мы можем создать фрейм данных Pandas как словарь. Фактически, «A» — это ключ, и он разделён списком значений через двоеточие. Затем и ключи, и значения находятся внутри фигурных скобок.
Создайте столбец Pandas как фрейм данных Pandas, начиная с массива NumPy
Одной из сверхспособностей Pandas является то, что он может «принимать» массивы NumPy в качестве входных значений. Другими словами, мы можем создать фрейм данных, начиная с массива NumPy.
В случае одного столбца мы можем создать одномерный массив и преобразовать его во фрейм данных: в результате получится фрейм данных с одним столбцом.
Мы можем сделать это так:
import numpy as np import pandas as pd # Create a NumPy array values = np.array([5, 10, 15, 20]) # Transform array into Pandas data frame df = pd.DataFrame(values) # Print data frame print(df) >>> 0 0 5 1 10 2 15 3 20
Как добавить новый столбец во фрейм данных Pandas
Возможность добавить новый столбец во фрейм данных Pandas каким-то образом связана с созданием нового столбца.
Я имею в виду, что сначала нам нужно создать фрейм данных Pandas, затем один столбец Pandas, затем нам нужно добавить столбец в фрейм данных.
В этом случае у нас также есть несколько возможностей сделать это. Давайте посмотрим их все.
Добавление нового столбца во фрейм данных Pandas: стандартный метод
Стандартный метод добавления нового столбца во фрейм данных Pandas — создать фрейм данных, далее создать отдельный столбец, а затем добавить его во фрейм данных.
Мы будем использовать этот метод во всех следующих примерах. Итак, вот как мы можем это сделать:
import pandas as pd # Create a DataFrame df = pd.DataFrame(<'A': [1, 2, 3, 4]>) # Add a new column by using a list of values df[‘B’] = [20, 30, 40, 50] # Print data frame print(df) >>> A B 0 1 20 1 2 30 2 3 40 3 4 50'A':>
Давайте пошагово разберем, что мы сделали:
- Мы создали фрейм данных Pandas с помощью метода pd.DataFrame().
- Мы создали новый столбец df[‘B’], который назвали «B».
- Мы присвоили значения вновь созданному столбцу со списком чисел.
Добавление нового столбца во фрейм данных Pandas: применение функций
Возможности стандартного метода добавления нового столбца в существующий фрейм данных дают нам возможность создать новый столбец и добавить его в существующий фрейм данных одной строкой кода.
Например, предположим, что мы хотим создать два новых столбца как комбинацию существующего столбца. Мы можем сделать это, применяя функции к существующим столбцам следующим образом:
import pandas as pd # Create a DataFrame df = pd.DataFrame(<'A': [1, 2, 3, 4]>) # Create a column doubling the values of column A df[‘B’] = df[‘A’] * 2 # Apply lambda function to column A to create column C df[‘C’] = df[‘A’].apply(lambda x: x ** 2) # Print data frame print(df) >>> A B C 0 1 2 1 1 2 4 4 2 3 6 9 3 4 8 16'A':>
Итак, вот что мы сделали:
- Мы создали столбец Pandas («A») в качестве фрейма данных.
- Мы создали столбец «B», удвоив значения столбца «A».
- Мы создали столбец «C», применив лямбда-функцию к столбцу «A». В частности, в данном случае мы возводим в квадрат значения столбца «А».
Все эти столбцы хранятся вместе в уникальном фрейме данных.
Добавление нового столбца во фрейм данных Pandas: использование Pandas Series или отдельных столбцов Pandas
Конечно, мы можем добавлять столбцы во фрейм данных Pandas, даже если столбцы представляют собой Series или фрейм данных.
Вот как мы можем это сделать:
import pandas as pd # Create a DataFrame df = pd.DataFrame(<'A': [1, 2, 3, 4]>) # Create a new column using pd.Series() values = pd.Series([5, 10, 15, 20]) # Create series df[‘B’] = values # Add series to data frame as a column # Print data frame print(df) >>> A B 0 1 5 1 2 10 2 3 15 3 4 20'A':>
Итак, в приведённом выше случае мы создали Pandas Series, затем добавили её в существующий фрейм данных, дав ей имя.
В случае столбца Pandas, созданного как фрейм данных, мы имеем следующее:
import pandas as pd # Create a DataFrame df = pd.DataFrame(<'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]>) # Create a Pandas column as a data frame df[‘C’] = pd.DataFrame() # Print data frame print(df) >>> A B C 0 1 5 9 1 2 6 10 2 3 7 11 3 4 8 12'A':>
Как переименовать столбец в Pandas
Переименование столбца Pandas (или нескольких) — ещё одна типичная ежедневная задача, которую нам нужно выполнять, но способ выполнения которой мы часто не можем вспомнить.
Для её реализации существуют различные методы. Давайте посмотрим их все!
Как переименовать столбец Pandas: метод rename()
Мы можем переименовать столбец Pandas с помощью метода rename():
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'A': [1, 2, 3], 'B': [4, 5, 6]>) # Renaming a single column df = df.rename(columns=<'A': 'NewA'>) # Print data frame print(df) >>> NewA B 0 1 4 1 2 5 2 3 6'A':>
Итак, мы как будто пользуемся словарём. Внутри метода rename() нам нужно передать аргумент columns и указать фактическое имя и новое имя внутри фигурных скобок, разделив их двоеточием. Так же, как мы делаем в словарях.
Конечно, мы можем использовать этот метод для переименования нескольких столбцов одновременно следующим образом:
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'A': [1, 2, 3], 'B': [4, 5, 6]>) # Rename multiple columns df = df.rename(columns=<'A': 'NewA', 'B': 'NewB'>) # Print data frame print(df) >>> NewA NewB 0 1 4 1 2 5 2 3 6'A':>
Как переименовать столбец Pandas: атрибут columns
Чтобы переименовать один столбец в Pandas (или несколько), мы можем использовать атрибут columns следующим образом:
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'A': [1, 2, 3], 'B': [4, 5, 6]>) # Renaming all columns df.columns = [‘NewA’, ‘NewB’] # Print data frame print(df) >>> NewA NewB 0 1 4 1 2 5 2 3 6'A':>
В этом случае атрибут columns даёт нам возможность использовать список строк для переименования столбцов.
Как переименовать столбец Pandas: метод set_axis()
Чтобы переименовать один (или несколько) столбцов в Pandas, мы можем использовать метод set_axis():
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'A': [1, 2, 3], 'B': [4, 5, 6]>) # Renaming all columns df.set_axis([‘NewA’, ‘NewB’], axis=1, inplace=True) # Print data frame print(df) >>> NewA NewB 0 1 4 1 2 5 2 3 6'A':>
Итак, даже в этом случае мы используем список строк для переименования столбцов, но здесь нам также нужно передать параметры axis=1 и inplace=True, поскольку метод set_axis() устанавливает оси с нуля. Это позволяет этому методу переименовывать столбцы.
Как переименовать столбец Pandas: использование лямбда-функций
Когда нам приходится иметь дело со строками, как в случае имён столбцов Pandas, мы можем использовать лямбда-функции для изменения символов текста.
Например, нам может понадобиться переименовать столбцы, просто переведя буквы в нижний регистр. Мы можем сделать это так:
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'COLUMN_1': [1, 2, 3], 'COLUMN_2': [4, 5, 6]>) # Renaming columns using a lambda function df = df.rename(columns=lambda x: x.lower()) # Lowercase column names # Print data frame print(df) >>> column_1 column_2 0 1 4 1 2 5 2 3 6'COLUMN_1':>
Как удалить столбец в Pandas
Удаление столбца Pandas (или нескольких) — ещё одна задача, которую нам нужно выполнять очень часто. Например потому, что значения какого-то из столбцов могут оказаться несущественны или иметь значения NULL.
Для выполнения этой задачи у нас есть два метода. Давайте посмотрим на них!
Как удалить столбец в Pandas: метод drop()
Типичный способ удалить столбец в Pandas— использовать метод drop().
Здесь единственное, что нужно иметь в виду, так это решить, хотим ли мы удалить некоторые столбцы и создать новый фрейм данных, или мы хотим удалить их и заменить текущий фрейм данных.
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]>) # Drop one column and substitute the current data frame df = df.drop(‘A’, axis=1) # Print updated data frame print(df) >>> B C 0 4 7 1 5 8 2 6 9'A':>
Итак, мы удалили столбец «А», используя метод drop(), указывающий имя столбца, который мы хотели удалить, и ось ( axis=1 в Pandas указывает вертикальное направление).
В данном случае мы решили заменить фрейм данных df. Итак, в конце процесса фрейм данных df больше не имеет столбца «А».
Если же мы хотим создать другой фрейм данных, допустим, мы вызываем id df_2, мы должны сделать это так:
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9], 'D': [10, 11, 12]>) # Drop one column and substitute the current data frame df_2 = df.drop([‘A’, ‘D’], axis=1) # Print new data frame print(df_2) >>> B C 0 4 7 1 5 8 2 6 9'A':>
Итак, в этом случае мы удалили два столбца и создали новый фрейм данных со столбцами «B» и «C».
Это может быть полезно, если мы думаем, что нам может понадобиться исходный фрейм данных df в будущем для дальнейших анализов.
Как удалить столбец в Pandas: используйте индекс столбца
В Pandas столбцы можно выделить с помощью индексов. Это означает, что мы можем удалить их, используя индексы:
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9], 'D': [10, 11, 12]>) # Drop one column and append to a new data frame df_2 = df.drop(df.columns[[0, 1]], axis=1) # Print new data frame print(df_2) >>> C D 0 7 10 1 8 11 2 9 12'A':>
Итак, в этом случае мы создали новый фрейм данных только со столбцами «C» и «D» и удалили столбцы «A» и «B», используя их индексы.
Помня, что в Python мы начинаем индексацию с 0 (первый столбец имеет индекс 0 и является столбцом «A»), мы должны сказать, что этот метод может быть не оптимальным, если у нас есть десятки столбцов по простой причине: мы должны найти тот (или те), которые мы хотим отбросить, путём их подсчёта, что может привести к ошибкам.
Как найти уникальные значения в столбце Pandas
Поиск уникальных значений в столбце Pandas — это ещё одна задача, которую нам, возможно, придется выполнять ежедневно, потому что повторяющиеся значения должны обрабатываться особым образом.
В этом случае у нас есть несколько способов реализовать это. Давайте посмотрим на них.
Как найти уникальные значения в столбце Pandas: используйте метод value_counts() для поиска дубликатов
Если мы хотим увидеть, есть ли в столбце Pandas повторяющиеся значения, и мы также хотим узнать, сколько их, мы можем использовать метод value_counts():
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'A': [1, 2, 3, 1, 3], 'B': [4, 5, 6, 7, 8,], 'C': [7, 8, 9, 10, 11]>) # Find unique values in a Pandas column unique_values = df[‘A’].value_counts() # Print unique values print(unique_values) >>> 1 2 3 2 2 1 Name: A, dtype: int64'A':>
Итак, результат здесь говорит о том, что:
- Имя столбца — «A», а все типы — «int64».
- У нас есть две единицы.
- У нас есть две тройки.
- У нас одна двойка.
Данный метод показывает нам значения и сообщает, сколько из них присутствует в интересующем нас столбце.
Как найти уникальные значения в столбце Pandas: используйте метод drop_duplicates() для удаления дубликатов
Если мы хотим удалить повторяющиеся значения в столбце Pandas (потому что мы знаем, что в нём есть дубликаты), мы можем использовать метод drop_duplicates():
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'A': [1, 2, 3, 1, 3], 'B': [4, 5, 6, 7, 8,], 'C': [7, 8, 9, 10, 11]>) # Drop the duplicate values in a Pandas column unique_values = df[‘A’].drop_duplicates() # Print unique values print(unique_values) >>> 0 1 1 2 2 3'A':>
Итак, мы удалили дубликаты из столбца «A», создав новый столбец Pandas с именем unique_values.
Как найти уникальные значения в столбце Pandas: изучение фрейма данных
В этот момент вы можете спросить: « Хорошо, если у меня есть большой фрейм данных с десятками столбцов, как я могу знать, что некоторые столбцы имеют дубликаты?»
Хороший вопрос! Что мы можем сделать, так это сначала изучить весь фрейм данных.
Например, мы можем захотеть увидеть, есть ли дубликаты каких-либо столбцов. Мы можем сделать это так:
import pandas as pd # Creating a DataFrame with duplicates df = pd.DataFrame(<'A': [1, 2, 2, 3, 4, 4], 'B': [5, 6, 6, 7, 8, 8]>) # Check if there are duplicates in the DataFrame has_duplicates = df.duplicated().any() # Print the result print(has_duplicates) >>> True'A':>
Итак, этот код возвращает «True», если есть столбцы с дубликатами, и «False», если их нет.
А как насчет того, чтобы узнать имена столбцов, которые на самом деле имеют дубликаты? Мы можем сделать это так:
import pandas as pd # Creating a DataFrame with duplicates df = pd.DataFrame(<'A': [1, 2, 2, 3, 4, 4], 'B': [5, 6, 6, 7, 8, 8]>) # Find duplicate rows duplicate_rows = df.duplicated() # Print the duplicate rows print(df[duplicate_rows]) >>> A B 2 2 6 5 4 8'A':>
Приведённый выше код показывает:
- Столбцы с дубликатами.
- Значения дубликатов.
Теперь мы можем продолжить расследование с помощью метода value_counts() или удалить их с помощью метода drop_duplicates().
Как преобразовать столбец Pandas в список
Преобразование столбца Pandas в список — полезная функция, которая может дать нам возможность «изолировать» все значения из столбца Pandas, чтобы поместить их в список. Затем мы можем делать всё, что нам может понадобиться со списком, которым легко управлять.
У нас есть две возможности сделать это преобразование.
Как преобразовать столбец Pandas в список: метод list()
Метод list() — это встроенная в Python функция, которая преобразует итерируемый объект в список. Мы можем сделать это так:
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'A': [1, 2, 3, 1, 3], 'B': [4, 5, 6, 7, 8,], 'C': [7, 8, 9, 10, 11]>) # Transform Pandas column into a list column_list = list(df[‘B’]) # Print list print(column_list) >>> [4, 5, 6, 7, 8]'A':>
Итак, мы легко извлекли наши значения и поместили их в список.
Как преобразовать столбец Pandas в список: метод to_list()
Для достижения того же результата мы можем использовать метод to_list() от Pandas. Но будьте осторожны: он доступен в Pandas версии 1.2.0 или выше .
Мы можем сделать это так:
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'A': [1, 2, 3, 1, 3], 'B': [4, 5, 6, 7, 8,], 'C': [7, 8, 9, 10, 11]>) # Transform Pandas column into a list column_list = df[‘B’].to_list() # Print list print(column_list) >>> [4, 5, 6, 7, 8]'A':>
И, конечно же, мы получили тот же результат, что и раньше.
Как отсортировать фрейм данных Pandas по столбцам
Есть много ситуаций, в которых нам нужно отсортировать наши столбцы. Под сортировкой мы подразумеваем упорядочивание, поэтому мы можем упорядочить данные по возрастанию или по убыванию.
Мы можем достичь этой цели следующими методами:
Как отсортировать фрейм данных Pandas по столбцам: метод sort_values()
Чтобы отсортировать фрейм данных Pandas по столбцам, мы можем использовать метод sort_values():
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'A': [10, 2, 7, 1, 15], 'B': [4, 2, 6, 28, 8,], 'C': [7, 1, 9, 10, 19]>) # Sort df for A in ascending order df.sort_values(‘A’, ascending=True, inplace=True) # Print sorted data frame print(df) >>> A B C 3 1 28 10 1 2 2 1 2 7 6 9 0 10 4 7 4 15 8 19'A':>
Итак, как мы видим, фрейм данных отсортирован по столбцу «А» в порядке возрастания. На самом деле, если мы проверим:
- Во фрейме исходных данных в столбце «А» цифра 1 стоит на 4-й позиции. В столбце «В» число 28 стоит на четвертой позиции.
- В отсортированном фрейме данных в столбце «А» число 1 стоит на первой позиции. В столбце «В» число 28 стоит на первой позиции.
Итак, мы сортируем фрейм данных, но не теряем связи между значениями столбцов.
Очень полезной особенностью этого метода является то, что он может сортировать столбец, помещая NaNs как первые значения. Мы можем сделать это так:
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'A': [10, 0, 0, 1, 15], 'B': [4, 2, 6, 28, 8,], 'C': [7, 1, 15, 10, 19]>) # Sort NaNs in the beginning df.sort_values(‘A’, ascending=True, inplace=True) # Print sorted data frame print(df) >>> A B C 1 0 2 1 2 0 6 15 3 1 28 10 0 10 4 7 4 15 8 19'A':>
Как отсортировать фрейм данных Pandas по столбцам: метод sort_index()
Мы также можем отсортировать фрейм данных по значению индекса следующим образом:
import pandas as pd # Creating a DataFrame df = pd.DataFrame(<'A': [10, 2, 7, 1, 15], 'B': [4, 2, 6, 28, 8,], 'C': [7, 1, 9, 10, 19]>) # Sort data frame for index df.sort_index(inplace=True) # Print sorted data frame print(df) >>> A B C 0 10 4 7 1 2 2 1 2 7 6 9 3 1 28 10 4 15 8 19'A':>
И, как мы видим, индексы упорядочены (по возрастанию).
Заключение
В этой статье мы рассмотрели 7 основных операций со столбцами Pandas, которые мы выполняем едва ли не каждый день.
Это руководство поможет вам сэкономить много времени, если вы его сохраните, потому что мы выполняли одни и те же задачи по-разному, так что вам больше не придётся искать их в Google.
Добавляем новый столбец в существующий DataFrame в Pandas

В этой статье мы рассмотрим различные способы добавления нового столбца в существующий DataFrame в Pandas.
Создадим простой DataFrame, который будем использовать в качестве ссылки на протяжении всей этой статьи, чтобы продемонстрировать добавление новых столбцов в DataFrame.
# загружаем библиотеку pandas import pandas as pd # создаём DataFrame df = pd.DataFrame() # выводим DataFrame print(df)
Вывод
team points runrate wins 0 India 10 0.5 5 1 South Africa 8 1.4 4 2 New Zealand 3 2.0 2 3 England 5 -0.6 2
Мы создали DataFrame и теперь предположим, что нам нужно добавить новый столбец с количеством поражений команды.
1 способ. Объявляем и назначаем новый список в виде столбца
Самый простой способ – создать новый список и назначить список новому столбцу. Рассмотрим этот способ на примере.
# загружаем библиотеку pandas import pandas as pd # создаём DataFrame df = pd.DataFrame() # выводим DataFrame print(df) # добавляем новый список и переменные match_lost = [2, 1, 3, 4] # прикрепляем список к DataFrame df["lost"] = match_lost # Выводим DataFrame print(df)
Вывод
team points runrate wins lost 0 India 10 0.5 5 2 1 South Africa 8 1.4 4 1 2 New Zealand 3 2.0 2 3 3 England 5 -0.6 2 4
2 способ. Используем метод Data Frame.insert()
Недостаток описанного выше подхода заключается в том, что мы не можем добавить столбец в указанную позицию, и по умолчанию столбец вставляется ближе к концу. Можно решить эту проблему с помощью pandas.DataFrame.insert() .
В приведённом ниже примере вставим колонку “lost” перед колонкой “wins”. У нас это выйдет, если мы вставим новый столбец в индекс 2.
# загружаем библиотеку pandas import pandas as pd # создаём DataFrame df = pd.DataFrame() # выводим DataFrame print(df) # вставляем столбец в нужном нам месте df.insert(3, "lost", [2, 1, 3, 4], True) # выводим DataFrame print(df)
Вывод
team points runrate lost wins 0 India 10 0.5 2 5 1 South Africa 8 1.4 1 4 2 New Zealand 3 2.0 3 2 3 England 5 -0.6 4 2
3 способ. Используем метод DataFrame.assign()
Мы используем метод pandas.DataFrame.assign() , когда хотим создать много колонок в DataFrame.
Этот метод выводит новый объект со всеми исходными столбцами в дополнение к новым. Все существующие переназначенные столбцы будут перезаписаны.
В приведённом ниже примере мы добавляем несколько столбцов в DataFrame.
# загружаем библиотеку pandas import pandas as pd # создаём DataFrame df = pd.DataFrame() # выводим DataFrame print(df) # добавляем колонки к Pandas DataFrame df2 = df.assign(lost=[2, 1, 3, 4], matches_remaining=[2, 3, 1, 1]) # выводим DataFrame print(df2)
Вывод
team points runrate wins lost matches_remaining 0 India 10 0.5 5 2 2 1 South Africa 8 1.4 4 1 3 2 New Zealand 3 2.0 2 3 1 3 England 5 -0.6 2 4 1
4 способ. Используем метод pandas.concat()
Мы также можем использовать метод pandas.concat() для объединения нового столбца в DataFrame, передав axis=1 в качестве аргумента. Этот метод выводит новый DataFrame после объединения столбцов.
# загружаем библиотеку pandas import pandas as pd # создаём DataFrame df = pd.DataFrame() # выводим DataFrame print(df) # создаём DataFrame df2 = pd.DataFrame([[1, 2], [2, 1], [3, 4], [0, 3]], columns=['matches_left', 'lost']) # объединяем и выводим DataFrame print(pd.concat([df, df2], axis=1))
Вывод
team points runrate wins matches_left lost 0 India 10 0.5 5 1 2 1 South Africa 8 1.4 4 2 1 2 New Zealand 3 2.0 2 3 4 3 England 5 -0.6 2 0 3
5 способ. Используем словарь
Также мы можем создать словарь, чтобы добавить новый столбец в DataFrame. Мы можем использовать существующие столбцы в качестве ключа к словарю и присваивать значения соответственно новому столбцу.
# загружаем библиотеку pandas import pandas as pd # создаём DataFrame df = pd.DataFrame() # выводим DataFrame print(df) # Создаём новый словарь с ключами к столбцам # и значениями новых столбцов match_lost = # объединяем словарь со столбцами DataFrame df['lost'] = match_lost # выводим Dataframe print(df)
Вывод
team points runrate wins lost 0 India 10 0.5 5 2 1 South Africa 8 1.4 4 1 2 New Zealand 3 2.0 2 3 3 England 5 -0.6 2 0
Заключение
В этой статье мы рассмотрели 5 подходов к созданию и назначению списка, insert(), assign(), concat() и словаря для вставки новых столбцов в DataFrame или перезаписи существующих. В зависимости от ваших нужд вы можете выбрать один из этих методов.