Python之Pandas的常用技能【增加数据】

河尧 · 发表于 2023-1-16 07:15:02

pandas练习文档(1).xlsx
416.6K
· 百度网盘

准备数据
import pandas as pd
#读取数据
#这一次读取的是sheet_name=1,1是索引序列。
df = pd.read_excel(r&#39;C:\Users\XXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
#查看数据
print(df)

1、增加行数据

1.1 df.loc[]：增加一行数据

import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
#df.loc[]
#df.loc[5]是确定这一行数据放的位置。这里我选择放到最后，当然也可以是df.loc[0]。后面的则是具体的数据。
df.loc[5] = [&#39;shao&#39;,&#39;29&#39;,&#39;female&#39;]
print(df)

1.2 df.append(data=list,dict,ignore_index=True/False)：

两个参数，ignore_index（忽略索引）,一般填True。
但是在目前的版本中会报FutureWarning。
FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead.1.2.1 将list作为一行插入df
import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
#df.append()
insert_data = [&#39;shao&#39;,29,&#39;female&#39;]
#现将这个数据转化成df并用T转置。
#如果不转置，这里将是一列数据，无法与上面的df组合在一起的。
df_insert = pd.DataFrame(insert_data).T
# 设置相同columns。
df_insert.columns = [&#39;name&#39;,&#39;age&#39;,&#39;gender&#39;]
# print(df_insert)
df = df.append(df_insert,ignore_index=False)
#如果这里是df = df.append(df_insert,ignore_index=True)，则不需要重置索引一步了。
#重置索引
df.index=range(len(df))
print(df)

1.2.2 将dict作为一行插入df
这里补充一个知识点，单一dict转化成DataFrame的几种方法。
1）dict——>pd.DataFrame(insert_data,index=[0])，一定要注意这里的index=[0]，如果不填会报错的。
import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)

insert_data = {&#39;name&#39;:&#39;shao&#39;,&#39;age&#39;: 29, &#39;gender&#39;:&#39;female&#39;}
#如果dict是这种格式，需要先将dict转化为DataFrame数据结构。
df_insert = pd.DataFrame(insert_data,index=[0])
# print(df_insert)
#添加行
df = df.append(df_insert,ignore_index=True)
print(df)

2）dict——>[dict]
import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
insert_data = {&#39;name&#39;:&#39;shao&#39;,&#39;age&#39;: 29, &#39;gender&#39;:&#39;female&#39;}
#如果dict是这种格式，需要先将dict转化为DataFrame数据结构。
df_insert = pd.DataFrame([insert_data])
# print(df_insert)
#添加行
df = df.append(df_insert,ignore_index=True)
print(df)

3）pd.DataFrame.from_dict()
import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
insert_data = {&#39;name&#39;:&#39;shao&#39;,&#39;age&#39;: 29, &#39;gender&#39;:&#39;female&#39;}
#如果dict是这种格式，需要先将dict转化为DataFrame数据结构。
#使用pd.DataFrame.from_dict()一定要用T转置
df_insert = pd.DataFrame.from_dict(insert_data,orient=&#39;index&#39;).T
# print(df_insert)
#添加行
df = df.append(df_insert,ignore_index=True)
print(df)

【注：pd.append()不止是可以增加单行，只要将数据编成相同columns的DataFrame数据，都可以合并的】
这里仅举一个list的例子。同时可以探索一下将list转化成DataFrame的N种方式~
import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
#df.append()
insert_data = [[&#39;shao&#39;,29,&#39;female&#39;],[&#39;Musi&#39;,2900,&#39;&#39;],[&#39;Kong&#39;,3900,&#39;male&#39;]]
#将列表数据转换成DataFrame数据结构。
df_insert = pd.DataFrame(insert_data)
# 设置相同columns。
df_insert.columns = [&#39;name&#39;,&#39;age&#39;,&#39;gender&#39;]
# print(df_insert)
df = df.append(df_insert,ignore_index=True)
print(df)

1.3 pd.concat()

【注：推荐使用，这函数的用途非常广，这里篇幅会略长】
【注：这里不再讲如何将dict、list转化成DataFrame】
1.3.1 pd.concat()参数解读
pd.concat(
objs,#数据，如Series，DataFrame，list。
axis=0, #合并依据，是根据行标签，还是列标签。也可以理解为，增加行为0，增加列为1。
join=&#39;outer,inner&#39;, #两张表的连接方式，类似SQL中的JOIN。inner是两张表的交集。outer是两张表的并集。默认为outer。
join_axes=None, #弃用。用于inner join时保留哪张表的索引。
ignore_index=False, #是否忽略索引。
keys=None, #这个是用来标记数据来源的。比如合并两张表，那些表是一张表的数据，那些表是第二张表的数据，可以用keys=[&#39;t1&#39;，&#39;t2&#39;]
levels=None, #确定索引，默认为无。
names=None, #给合并后数据结构添加名字。用list形式。如names=[&#39;来源表&#39;,&#39;索引列&#39;]
verify_integrity=False, #
sort=None, #排序，布尔值：True、False，默认为无。True时会重新排序。False则出现警告，不重新排序。
copy=True,#
)
1.3.2增加一行
import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
#df.concat()
insert_data = [[&#39;shao&#39;,29,&#39;female&#39;]]
#将列表数据转换成DataFrame数据结构。
df_insert = pd.DataFrame(insert_data)
# 设置相同columns。
df_insert.columns = [&#39;name&#39;,&#39;age&#39;,&#39;gender&#39;]
# print(df_insert)
#将需要合并的数据放到list中。
df = pd.concat([df,df_insert],axis=0,ignore_index=True)
print(df)

1.3.3 增加多行
import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
#df.concat()
insert_data = [[&#39;shao&#39;,29,&#39;female&#39;],[&#39;Musi&#39;,2900,&#39;&#39;],[&#39;Kong&#39;,3900,&#39;male&#39;]]
#将列表数据转换成DataFrame数据结构。
df_insert = pd.DataFrame(insert_data)
# 设置相同columns。
df_insert.columns = [&#39;name&#39;,&#39;age&#39;,&#39;gender&#39;]
# print(df_insert)
#将需要合并的数据放到list中。
df = pd.concat([df,df_insert],axis=0,ignore_index=True)
print(df)

1.3.3 合并两个sheet表
import pandas as pd
#读取第一张sheet中的数据
df_1 = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
#读取第二张sheet中的数据
df_2 = pd.read_excel(r&#39;C:\Users\XXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=2)
#将需要合并的数据放到list中。
df = pd.concat([df_1,df_2],axis=0,ignore_index=True)
print(df)

2、增加列数据

2.1 df[&#39;col_name&#39;]=values

直接赋值
import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
# print(df)
#增加一列
df[&#39;job&#39;] = [&#39;student&#39;,&#39;doctor&#39;,&#39;lawyer&#39;,&#39;teacher&#39;]
print(df)

2.2 df.loc[:,&#39;new_col_name&#39;] = values

import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
# print(df)
#增加一列,注意行数应于df的行数相同，否则会报错。
df.loc[:,&#39;job&#39;] = [&#39;student&#39;,&#39;doctor&#39;,&#39;lawyer&#39;,&#39;teacher&#39;]
print(df)

2.3 df.insert()

2.3.1 参数详解
df.insert(
loc, #位置索引，必要字段。
column, #列标签名，必要字段。
value,#值，Series，list，str，float，int等。必要字段。
allow_duplicates = False#布尔值，用于检查是否存在具有相同名称的列。默认为False，不允许与已有的列名重复。
)
2.3.2 插入一列
import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
# print(df)
df.insert(loc=2,column=&#39;job&#39;,value=[&#39;student&#39;,&#39;doctor&#39;,&#39;lawyer&#39;,&#39;teacher&#39;],allow_duplicates=False)
print(df)

2.4 pd.concat()

import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
# print(df)
#使用pd.concat()拼接,加一列空列，然后再赋值。这个方法不推荐。
df_new = pd.concat([df,pd.DataFrame(columns=[&#39;job&#39;])],sort=False)
df_new[&#39;job&#39;] = [&#39;student&#39;,&#39;doctor&#39;,&#39;lawyer&#39;,&#39;teacher&#39;]
print(df_new)

2.5 df.reindex()

【注：思路与pd.concat()添加新列相似】
import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
# print(df)
#使用df.reindex()新建一列，并填充数据。
df = df.reindex(columns = [&#39;name&#39;,&#39;age&#39;,&#39;gender&#39;,&#39;job&#39;],fill_value=0)
df[&#39;job&#39;] = [&#39;student&#39;,&#39;doctor&#39;,&#39;lawyer&#39;,&#39;teacher&#39;]
print(df)

2.6 增加多列

【注：先利用pd.concat()、df.reindex(),增加空列再赋值】
方式1：
import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
# print(df)
#使用df.reindex()新建一列，并填充数据。
df = df.reindex(columns = [&#39;name&#39;,&#39;age&#39;,&#39;gender&#39;,&#39;job&#39;,&#39;city&#39;],fill_value=0)
df[&#39;job&#39;] = [&#39;student&#39;,&#39;doctor&#39;,&#39;lawyer&#39;,&#39;teacher&#39;]
df[&#39;city&#39;] = [&#39;chengdu&#39;,&#39;nanjing&#39;,&#39;xian&#39;,&#39;beijing&#39;]
print(df)

方式2：
import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
# print(df)
#使用pd.concat()拼接,加一列空列，然后再赋值。这个方法不推荐。
df_new = pd.concat([df,pd.DataFrame(columns=[&#39;job&#39;,&#39;city&#39;])],sort=False)
df_new[&#39;job&#39;] = [&#39;student&#39;,&#39;doctor&#39;,&#39;lawyer&#39;,&#39;teacher&#39;]
df[&#39;city&#39;] = [&#39;chengdu&#39;,&#39;nanjing&#39;,&#39;xian&#39;,&#39;beijing&#39;]
print(df_new)

3、合并数据

3.1 pd.concat()

3.1.1 行合并
在增加行数据中已有涉及，此处不再论述。
3.1.2 列合并
import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
# print(df)
df1 = pd.DataFrame({
&#39;job&#39;:[&#39;student&#39;,&#39;doctor&#39;,&#39;lawyer&#39;,&#39;teacher&#39;],
&#39;city&#39;:[&#39;chengdu&#39;,&#39;nanjing&#39;,&#39;xian&#39;,&#39;beijing&#39;]
})
df = pd.concat([df,df1],axis=1)
print(df)

3.2 df.join()

3.2.1 df.join()参数详解
df.join(
other, #数据，df数据结构
on=None, #列名，默认使用索引连接。
how=&#39;left&#39;, #连接方式，默认使用左连接。{&#39;left&#39;, &#39;right&#39;, &#39;outer&#39;, &#39;inner&#39;}, default:&#39;left&#39;
lsuffix=&#39;&#39;, #左边df中重复列的后缀
rsuffix=&#39;&#39;, #右边df中重复列的后缀
sort=False
)
3.2.2 列合并
1）没有相同列的合并
import pandas as pd
#读取数据
df = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
# print(df)
df1 = pd.DataFrame({
&#39;job&#39;:[&#39;student&#39;,&#39;doctor&#39;,&#39;lawyer&#39;,&#39;teacher&#39;],
&#39;city&#39;:[&#39;chengdu&#39;,&#39;nanjing&#39;,&#39;xian&#39;,&#39;beijing&#39;]
})
df_new = df.join(df1)
print(df_new)

2）根据相同列合并
根据&#39;name&#39;列合并
import pandas as pd
#读取数据
df_0 = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
# print(df)
df1 = pd.DataFrame({
&#39;name&#39;:[&#39;Ann&#39;,&#39;Lucy&#39;,&#39;nanxi&#39;,&#39;niuli&#39;],
&#39;job&#39;:[&#39;student&#39;,&#39;doctor&#39;,&#39;lawyer&#39;,&#39;teacher&#39;],
&#39;city&#39;:[&#39;chengdu&#39;,&#39;nanjing&#39;,&#39;xian&#39;,&#39;beijing&#39;]
})
#因为df.join()总是根据other索引匹配的，所以，要在连接前重置索引。具体重置索引内容会在【修改数据】篇介绍。
df_0 = df_0.set_index(&#39;name&#39;)
df1 = df1.set_index(&#39;name&#39;)
# print(df1)
df_new = df_0.join(df1,on=&#39;name&#39;,lsuffix=&#39;_0&#39;,rsuffix=&#39;_1&#39;)
print(df_new)

【注：其他连接方式不再举例，可自行操作】
可参考：pandas中DataFrame的连接操作：join - 简书
3.3pd.merge()

【注：这个与excel中的Vlookup，SQL中的表连接相似】
pd.merge()与pd.concat()最大的不同在于，pd.merge()不能进行数据的上下连接，只能进行两张表的左右连接。
3.3.1 pd.merge()参数详解
pd.merge(
left, right, #左表、右表
how=&#39;inner&#39;, #连接方式，默认内连接，即只会输出交集部分。{&#39;left&#39;, &#39;right&#39;, &#39;outer&#39;, &#39;inner&#39;, &#39;corss&#39;}
on=None, #设置关键字参数。哪一列作为主键列。
left_on=None, #针对没有相同列名的两张表，可以用left_on和right_on参数。
right_on=None, #针对没有相同列名的两张表，可以用left_on和right_on参数。
left_index=False, #默认为False，即不以索引作为主键。若以索引作为主键，设置为True。
right_index=False, #默认为False，即不以索引作为主键。若以索引作为主键，设置为True。
sort=False,
suffixes=(&#39;_x&#39;, &#39;_y&#39;), #后缀设置。
copy=True,
indicator=False, #对数据标记来源。
validate=None,
)
3.3.2 inner内连接
import pandas as pd
#读取数据
df_1 = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
# print(df)
df_3 = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=3)
# print(df_1,df_3,sep=&#39;\n\n&#39;)
#根据名字进行连接
df_new = pd.merge(df_3,df_1,left_on=&#39;name&#39;,right_on=&#39;name&#39;,suffixes=(&#39;_3&#39;,&#39;_1&#39;))
print(df_new)

3.3.3 左联结
【注：以左边的表为主表】
import pandas as pd
#读取数据
df_1 = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
# print(df)
df_3 = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=3)
# print(df_1,df_3,sep=&#39;\n\n&#39;)
#根据名字进行连接
df_new = pd.merge(df_3,df_1,how=&#39;left&#39;,left_on=&#39;name&#39;,right_on=&#39;name&#39;,suffixes=(&#39;_3&#39;,&#39;_1&#39;))
print(df_new)

3.3.4 右连接
【注：以右边的表为主表】
import pandas as pd
#读取数据
df_1 = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
# print(df)
df_3 = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=3)
# print(df_1,df_3,sep=&#39;\n\n&#39;)
#根据名字进行连接
df_new = pd.merge(df_3,df_1,how=&#39;right&#39;,left_on=&#39;name&#39;,right_on=&#39;name&#39;,suffixes=(&#39;_3&#39;,&#39;_1&#39;))
print(df_new)

输出的id是float64类型的，为什么呢？
右边的表缺少的id，NaN填入，pandas中，在不指定数据类型的情况下，默认为是float，id为str，NaN默认为float合并之后，这一列的数据类型就变成了float的。所以一般情况下，不要采用这种方式.

3.3.5 外连接
import pandas as pd
#读取数据
df_1 = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=1)
# print(df)
df_3 = pd.read_excel(r&#39;C:\Users\XXXXXX\Desktop\pandas练习文档.xlsx&#39;,sheet_name=3)
# print(df_1,df_3,sep=&#39;\n\n&#39;)
#根据名字进行连接
df_new = pd.merge(df_3,df_1,how=&#39;outer&#39;,left_on=&#39;name&#39;,right_on=&#39;name&#39;,suffixes=(&#39;_3&#39;,&#39;_1&#39;))
print(df_new)

一半忧伤一半偽裝 · 发表于 2025-7-8 14:53:34

传说中的沙发？？？哇卡卡

彭彬 · 发表于 2025-12-16 06:01:33

鼎力支持！！

用户哈哈琳 · 发表于 2025-12-22 09:24:41

确实不错，顶先

淡定者 · 发表于 2026-1-29 09:52:24

前排，哇咔咔

吴晓 · 发表于 2026-2-16 13:04:43

专业抢沙发的！哈哈

凫鹱 · 发表于 2026-2-16 19:16:59

纯粹路过，没任何兴趣，仅仅是看在老用户份上回复一下

今晚睇李 · 发表于 2026-2-16 23:05:13

这么强,支持楼主，佩服

精饰服装 · 发表于 2026-2-17 01:19:42

支持，赞一个

仙人掌有毒 · 发表于 2026-2-19 04:20:49

不错支持下

		自动登录	找回密码
密码			立即注册

Python之Pandas的常用技能【增加数据】

浏览过的版块