Pandas库中有一个merge()函数允许我们去连接DataFrame对象。让我们创建两个DataFrame并演示如何合并它们。
这是第一个数据框,df1:
import pandas
as pd
d = {
'subject_id': [
'1',
'2',
'3',
'4',
'5'],
'student_name': [
'John',
'Emily',
'Kate',
'Joseph',
'Dennis']
}
df1 = pd.DataFrame(d, columns=[
'subject_id',
'student_name'])
print(df1)
输出:
subject_id student_name
0 1 John
1 2 Emily
2 3 Kate
3 4 Joseph
4 5 Dennis
以下是创建第二个DataFrame的代码df2:
import pandas
as pd
data = {
'subject_id': [
'4',
'5',
'6',
'7',
'8'],
'student_name': [
'Brian',
'William',
'Lilian',
'Grace',
'Caleb']
}
df2 = pd.DataFrame(data, columns=[
'subject_id',
'student_name'])
print(df2)
输出:
subject_id student_name
0 4 Brian
1 5 William
2 6 Lilian
3 7 Grace
4 8 Caleb
现在,我们需要合并两个DataFrames,就是df1和df2沿的值subject_id。我们只需调用该merge()函数,如下所示:
pd.merge(df1, df2, on=
'subject_id')
输出:
subject_id student_name_x student_name_y
0 4 Joseph Brian
1 5 Dennis William
合并的作用是它返回两个DataFrames中的行,其值与您用于合并的列的值相同。
同时还可以使用pd.merge设置应该合并哪些数据,应该如何合并,是否应该进行排序等。