第七节 pandas模块
一、pandas库
库的名称:pandas
作用:python的数据处理库
给numpy库起一个别名np,使用方法:
import pandas as pd
二、功能总结
1. read_excel()
作用:读取Excel文件
格式:df = pd.read_excel("唐诗300首.xlsx")
df是一种表格型的数据类型,叫做DataFrame。
读取名为df的DataFrame里的数据的方法如下:
df[列索引][行索引]
注意:DataFrame中行索引和列索引既可以是字符串也可以是数字。
import pandas as pd
df = pd.read_excel("唐诗300首.xlsx")
print(df["内容"][1])
2. columns
作用:返回一个列表,获取DataFrame的列索引
import pandas as pd
df = pd.read_excel("唐诗300首.xlsx")
print(df.columns)
3. sort_values()
作用:用于数据排序
格式:data = df.sort_values(by="列名",ascending=False)
第一个参数列名表示排序的依据,第二个参数为False表示降序排列,True表示升序排列。
下面是按照销售量降序排列的代码演示及其效果:
import pandas as pd
df = pd.read_excel("热门景点.xlsx")
data = df.sort_values(by="销售量",ascending=False)
print(data)
4. head()
作用:表示只显示前面若干条数据
格式:data.head(10)
参数10表示只显示前十条数据,可以是排序之后的
下面是按照销售量降序排列的前十条数据代码演示及其效果:
import pandas as pd
df = pd.read_excel("热门景点.xlsx")
data = df.sort_values(by="销售量",ascending=False)
print(data.head(10))
5. tail()
作用:表示只显示前面若干条数据
格式:data.tail(5)
参数5表示只显示后五条数据,可以是排序之后的
下面是按照销售量降序排列的后五条数据代码演示及其效果:
import pandas as pd
df = pd.read_excel("热门景点.xlsx")
data = df.sort_values(by="销售量",ascending=False)
print(data.tail(5))
6. head()[]
作用:表示只显示前面若干条数据中感兴趣的某一列
格式:data.head(10)[列索引]
参数10表示只显示前十条数据的某一列,可以是排序之后的
下面是按照销售量降序排列的前十条数据只显示销售量代码演示及其效果:
import pandas as pd
df = pd.read_excel("热门景点.xlsx")
data = df.sort_values(by="销售量",ascending=False)
print(data.head(10)["销售量"])
7. cut()
作用:进行数据分区
格式:pd.cut(df['liesuoyin'],bins=[],labels=[])
第一个参数表示要分区的某列数据,第二个参数表示分区的区间,第三个参数表示分区结果的标签
import pandas as pd
df = pd.read_excel("热门景点.xlsx")
data = pd.cut(df["销售量"],bins=[0,3000,6000,9000,12000],labels=["冷清","正常","热门","火爆"])
print(data)
8. groupby()
作用:进行数据分组统计
格式:df["销售量"].groupby(by=data1).count()
by参数表示分组依据的分区方式,count表示结果计数
import pandas as pd
df = pd.read_excel("热门景点.xlsx")
data1 = pd.cut(df["销售量"],bins=[0,3000,6000,9000,12000],labels=["冷清","正常","热门","火爆"])
data = df["销售量"].groupby(by=data1).count()
print(data)