一、常用的导入数据函数

导入数据

pd.read_csv(filename):从CSV文件导入数据
pd.read_table(filename):从限定分隔符的文本文件导入数据
pd.read_excel(filename):从Excel文件导入数据
pd.read_sql(query, connection_object):从SQL表/库导入数据
pd.read_json(json_string):从JSON格式的字符串导入数据
pd.read_html(url):解析URL、字符串或者HTML文件,抽取其中的tables表格
pd.read_clipboard():从你的粘贴板获取内容,并传给read_table()
pd.DataFrame(dict):从字典对象导入数据,Key是列名,Value是数据

二、常用的查看、检查数据函数

df.head(n):查看DataFrame对象的前n行
df.tail(n):查看DataFrame对象的最后n行
df.index  查看行名
df.columns  查看列名
df.values  查看矩阵
df.shape():查看行数和列数
df.info():查看索引、数据类型和内存信息
df.describe():查看数值型列的汇总统计
s.value_counts(dropna=False):查看Series对象的唯一值和计数
df.apply(pd.Series.value_counts):查看DataFrame对象中每一列的唯一值和计数

三、数据排序

df.sort_index(axis=1, ascending=False)  # 即按列名排序,交换列位置。df.sort_values(by='B')  # 按照列B的值升序排序

四、数据选取

df[col]:根据列名,并以Series的形式返回列df[[col1, col2]]:以DataFrame形式返回多列s.iloc[0]:按位置选取数据s.loc['index_one']:按索引选取数据df.iloc[0,:]:返回第一行df.iloc[0,0]:返回第一列的第一个元素

五、数据统计

df.describe():查看数据值列的汇总统计df.mean():返回所有列的均值df.corr():返回列与列之间的相关系数df.count():返回每一列中的非空值的个数df.max():返回每一列的最大值df.min():返回每一列的最小值df.median():返回每一列的中位数df.std():返回每一列的标准差

更多精彩内容正在持续更新中………

CCAT复习资料

合并
列重命名
其他涉及到的方法和知识点
  • 求和
  • 分组
  • 求平均
  • 构造DataFrame