pandas-读取数据并显示,pd.read_csv,df.tail(5),df.shape,df.shape

张开发
2026/4/15 7:37:41 15 分钟阅读

分享文章

pandas-读取数据并显示,pd.read_csv,df.tail(5),df.shape,df.shape
dirty-data.csv 里边的数据内容员工ID,姓名,部门,入职日期,年龄,月薪,月度业绩,考勤天数,学历,在职状态 1001,张三,技术部,2020-03-15,28,8500,12000,22,本科,是 1002,李四,市场部,2021/05/20,35,9800,--,20,硕士,是 1003,王五,,2022-01-08,,7600,8500,18,大专,否 1004,赵六,销售部,2020.11.30,42,12000,25000,25,本科,1 1005,,技术部,2023-07-12,26,6800,NaN,23,本科,是 1006,孙七,市场部,2021-09-05,31,8900,9800,-5,硕士,是 1007,周八,销售部,,33,10500,18000,21,大专,否 1008,吴九,技术部,2022/06/18,29,9200,15000,24,n/a,是 1009,郑十,行政部,2023-02-20,58,7300,6500,19,本科,是 1010,钱十一,市场部,2020-12-03,36,11000,13000,22,博士,否 1011,冯十二,销售部,2021.04.15,,9500,21000,26,本科,是 1012,陈十三,技术部,2022-08-25,27,7900,10000,23,大专,0 1013,褚十四,,2023-03-10,34,8200,9200,,本科,是 1014,卫十五,行政部,2021/10/18,45,6500,5800,17,硕士,是 1015,蒋十六,销售部,2020-06-22,38,13500,30000,24,本科,否 1016,沈十七,市场部,2022.03.05,29,8600,7500,21,大专,是 1017,韩十八,技术部,,32,9800,14000,22,本科,是 1018,杨十九,销售部,2023-05-18,40,11500,23000,25,硕士,是 1019,朱二十,行政部,2021-02-12,52,7800,6200,19,本科,否 1020,秦二十一,市场部,2022-11-08,33,9100,8800,20,博士,是读取数据# 读取数据importpandasaspd dfpd.read_csv(./dirty-data.csv)# 显示csv 里边的所有的数据df员工ID姓名部门入职日期年龄月薪月度业绩考勤天数学历在职状态01001张三技术部2020-03-1528.085001200022.0本科是11002李四市场部2021/05/2035.09800--20.0硕士是21003王五NaN2022-01-08NaN7600850018.0大专否31004赵六销售部2020.11.3042.0120002500025.0本科141005NaN技术部2023-07-1226.06800NaN23.0本科是51006孙七市场部2021-09-0531.089009800-5.0硕士是61007周八销售部NaN33.0105001800021.0大专否71008吴九技术部2022/06/1829.092001500024.0NaN是81009郑十行政部2023-02-2058.07300650019.0本科是91010钱十一市场部2020-12-0336.0110001300022.0博士否101011冯十二销售部2021.04.15NaN95002100026.0本科是111012陈十三技术部2022-08-2527.079001000023.0大专0121013褚十四NaN2023-03-1034.082009200NaN本科是131014卫十五行政部2021/10/1845.06500580017.0硕士是141015蒋十六销售部2020-06-2238.0135003000024.0本科否151016沈十七市场部2022.03.0529.08600750021.0大专是161017韩十八技术部NaN32.098001400022.0本科是171018杨十九销售部2023-05-1840.0115002300025.0硕士是181019朱二十行政部2021-02-1252.07800620019.0本科否191020秦二十一市场部2022-11-0833.09100880020.0博士是# nrows 只读取3行数据dfpd.read_csv(./dirty-data.csv,nrows3,)df员工ID姓名部门入职日期年龄月薪月度业绩考勤天数学历在职状态01001张三技术部2020-03-1528.085001200022本科是11002李四市场部2021/05/2035.09800--20硕士是21003王五NaN2022-01-08NaN7600850018大专否# nrows 只读取3行数据 usecols[0,1,2] 选择 列的下标 是0,1,2的列dfpd.read_csv(./dirty-data.csv,nrows3,usecols[0,1,2])df员工ID姓名部门01001张三技术部11002李四市场部21003王五NaN# headerNone 表示标题也算数据的一部分dfpd.read_csv(./dirty-data.csv,nrows3,usecols[0,1,2],headerNone)df0120员工ID姓名部门11001张三技术部21002李四市场部# skiprows1 跳过第一行,再取3条数据dfpd.read_csv(./dirty-data.csv,nrows3,usecols[0,1,2],headerNone,skiprows1)df01201001张三技术部11002李四市场部21003王五NaN显示数据dfpd.read_csv(./dirty-data.csv)# 显示前5行数据df.head(5)员工ID姓名部门入职日期年龄月薪月度业绩考勤天数学历在职状态01001张三技术部2020-03-1528.085001200022.0本科是11002李四市场部2021/05/2035.09800--20.0硕士是21003王五NaN2022-01-08NaN7600850018.0大专否31004赵六销售部2020.11.3042.0120002500025.0本科141005NaN技术部2023-07-1226.06800NaN23.0本科是# 显示后5行数据df.tail(5)员工ID姓名部门入职日期年龄月薪月度业绩考勤天数学历在职状态151016沈十七市场部2022.03.0529.08600750021.0大专是161017韩十八技术部NaN32.098001400022.0本科是171018杨十九销售部2023-05-1840.0115002300025.0硕士是181019朱二十行政部2021-02-1252.07800620019.0本科否191020秦二十一市场部2022-11-0833.09100880020.0博士是# 显示数据有 几行几列df.shape(20, 10)# 显示数据所有的列名df.columns.valuesarray([员工ID, 姓名, 部门, 入职日期, 年龄, 月薪, 月度业绩, 考勤天数, 学历, 在职状态], dtypeobject)

更多文章