Узнайте, как объединить кадры данных в Python

Узнайте, как объединить кадры данных в Python

Если вы используете Python даже для самых простых задач, вы, вероятно, знаете о важности его сторонних библиотек. Библиотека Pandas с ее отличной поддержкой DataFrames является одной из таких библиотек.





Вы можете импортировать несколько типов файлов в Python DataFrames и создавать различные версии для хранения разных наборов данных. После того, как вы импортируете свои данные с помощью DataFrames, вы можете объединить их для выполнения подробного анализа.





Работа с основами

Прежде чем вы начнете слияние, вам нужно иметь DataFrames для слияния. В целях разработки вы можете создать некоторые фиктивные данные для экспериментов.





как играть в покемонов на планшете android

Создайте кадры данных в Python

В качестве первого шага импортируйте библиотеку Pandas в файл Python. Pandas — это сторонняя библиотека, которая обрабатывает DataFrames в Python. Вы можете использовать импорт оператор для использования библиотеки, как показано ниже:

import pandas as pd

Вы можете назначить псевдоним имени библиотеки, чтобы сократить ссылки на код.



Вам нужно создать словари, которые вы можете конвертировать в DataFrames. Для достижения наилучших результатов создайте две переменные словаря: дикт1 а также дикт2— для хранения определенных фрагментов информации:

dict1 = {"user_id": ["001", "002", "003", "004", "005"], 
"FName": ["John", "Brad", "Ron", "Roald", "Chris"],
"LName": ["Harley", "Cohen", "Dahl", "Harrington", "Kerr-Hislop"]}

dict2 = {"user_id": ["001", "002", "003", "004"], "Age": [15, 28, 34, 24]}

Помните, что вам нужно иметь общий элемент в обоих значениях словаря, чтобы действовать как первичный ключ для последующего объединения ваших фреймов данных.





Преобразуйте свои словари в фреймы данных

Чтобы преобразовать значения вашего словаря в DataFrames, вы можете использовать следующий метод:

df1 = pd.DataFrame(dict1) 
df2 = pd.DataFrame(dict2)

Некоторые IDE позволяют проверять значения в DataFrame, ссылаясь на функцию DataFrame и нажимая Выполнить/Выполнить . Есть много Python-совместимые IDE , так что вы можете выбрать тот, который вам легче всего изучить.





  Фрагмент кода Jupyter Notebook

Как только вы будете удовлетворены содержимым своих DataFrames, вы можете перейти к шагу слияния.

Объединение кадров с помощью функции слияния

Функция слияния — это первая функция Python, которую вы можете использовать для объединения двух фреймов данных. Эта функция принимает следующие аргументы по умолчанию:

pd.merge(DataFrame1, DataFrame2, how= type of merge)

Где:

  • пд это псевдоним для библиотеки Pandas.
  • сливаться это функция, которая объединяет DataFrames.
  • DataFrame1 а также DataFrame2 два кадра данных для слияния.
  • как определяет тип слияния.

Доступны некоторые дополнительные необязательные аргументы, которые можно использовать при наличии сложной структуры данных.

Вы можете использовать разные значения параметра «как», чтобы определить тип выполняемого слияния. Эти типы слияния будут знакомы, если вы использовал SQL для соединения таблиц базы данных .

Левое слияние

Левый тип слияния сохраняет значения первого кадра данных без изменений и извлекает соответствующие значения из второго кадра данных.

  Фрагмент кода Jupyter Notebook

Правое слияние

Правильный тип слияния сохраняет значения второго кадра данных без изменений и извлекает соответствующие значения из первого кадра данных.

  Фрагмент кода Jupyter Notebook

Внутреннее слияние

Внутренний тип слияния сохраняет совпадающие значения из обоих DataFrames и удаляет несовпадающие значения.

  Фрагмент кода Jupyter Notebook

Внешнее слияние

Внешний тип слияния сохраняет все совпадающие и несовпадающие значения и объединяет кадры данных вместе.

как проверить видеокарту в Windows 10
  Фрагмент кода Jupyter Notebook

Как использовать функцию Concat

конкат Функция является гибкой опцией по сравнению с некоторыми другими функциями слияния Python. С помощью функции concat вы можете комбинировать кадры данных по вертикали и горизонтали.

Однако недостатком использования этой функции является то, что она по умолчанию отбрасывает любые несовпадающие значения. Как и некоторые другие связанные функции, эта функция имеет несколько аргументов, из которых лишь несколько необходимы для успешной конкатенации.

concat(dataframes, axis=0, join='outer'/inner)

Где:

  • конкат это функция, которая объединяет DataFrames.
  • кадры данных представляет собой последовательность DataFrames для объединения.
  • ось представляет направление конкатенации, 0 — по горизонтали, 1 — по вертикали.
  • присоединиться указывает либо внешнее, либо внутреннее соединение.

Используя два вышеупомянутых кадра данных, вы можете попробовать функцию concat следующим образом:

# define the dataframes in a list format 
df_merged_concat = pd.concat([df1, df2])

# print the results of the Concat function
print(df_merged_concat)

Отсутствие аргументов оси и соединения в приведенном выше коде объединяет два набора данных. В результирующем выводе есть все записи, независимо от статуса совпадения.

Точно так же вы можете использовать дополнительные аргументы для управления направлением и выводом функции concat.

Чтобы контролировать вывод со всеми совпадающими записями:

# Concatenating all matching values between the two dataframes based on their columns 
df_merged_concat = pd.concat([df1, df2], axis=1, join = 'inner')

print(df_merged_concat)

Результат содержит все совпадающие значения только между двумя кадрами данных.

  Фрагмент кода Jupyter Notebook

Слияние фреймов данных с Python

DataFrames являются неотъемлемой частью Python, учитывая их гибкость и функциональность. Учитывая их многогранное использование, вы можете использовать их широко для выполнения различных задач с максимальной легкостью.

имя файла слишком длинное, чтобы удалить

Если вы все еще изучаете Python DataFrames, попробуйте импортировать несколько файлов Excel, а затем комбинируйте их с помощью разных подходов.