当前位置：主页 > 查看内容

数据分析岗Python笔试题

发布时间：2021-05-21 00:00| 有位朋友查看

简介：我整理了数据分析师岗的Python笔试题，主要涉及到用Python完成数据处理和分析的内容。自己做了一遍，供大家学习思考。一、数据处理题 1.将Excel工作簿 Test.xlsx 作为dataframe导入 Jupyter Notebook，并将dataframe命名为a. 导入后dataframe x应为如下：……

我整理了数据分析师岗的Python笔试题，主要涉及到用Python完成数据处理和分析的内容。自己做了一遍，供大家学习思考。

一、数据处理题

1.将Excel工作簿 “Test.xlsx” 作为dataframe导入 Jupyter Notebook，并将dataframe命名为a. 导入后dataframe x应为如下：输出结果

import pandas as pd 
import numpy as np 
a = pd.read_excel('Test.xlsx')

第1题

2.dataframe a 中, class1-class5 指总共5门课，每个学生选两门，列出期中(midterm)、期末(final)成绩(A/B/C)。请用Python语言处理表格，将class1-class5列去除，并增加 class 和 grade 两列，使新dataframe的值与原dataframe对应，并将新dataframe命名为b. 输出结果应为如下：输出结果

#1.先设置索引列——复合索引，用列表 
#2.stack()旋转列为行，默认是旋转最内层，并且删除空值 
#3.重置索引 
#4.更改列名 
b = a.set_index(["name","test"]).stack().reset_index()   
b.columns=['name','test','class','grade'] 
b

用Python语言将dataframe b 的test列分成midterm和final两列，这两列的值是选的两门课的成绩。将新dataframe命名为c。输出结果应为如下：输出结果

c = b.set_index(['name','class','test']).unstack()

第2题

4.如下为dataframe d 和 dataframe e DataFrame d and e

请用Python语言将dataframe d 和 dataframe e 匹配, 输出结果应为如下：输出结果

#水果价格信息表 
d = pd.DataFrame({'水果':['apple','apple','banana','banana','orange','orange'], 
             '个头':['high','low']*3, 
             '单价':[5,3,4,2,7,5]}) 
#水果订单 
e = pd.DataFrame({'水果':['apple','banana','orange']*2, 
             '个头':['high','low']*3, 
             '重量':np.random.randint(1,15,6)}) 
pd.merge(d,e,how='inner')

如下是dataframe f DataFrame f

请用python语言得出每节课(class)和每个年级 (grade) 下，学生的数量和平均成绩。输出结果应为如下：输出结果

f = pd.DataFrame(['Sally','David',"Jon",'Jon'],columns=['name']) 
f['score']=[95,99,80,83] 
f['class']=['A','A','A','B'] 
f['grade']=['grade 1','grade 2','grade 1','grade 2'] 
f 
#方法一：使用groupby 
f.groupby(['class','grade']).agg({'name':'count','score':'mean'}) 
#方二：使用pivot_table 
f.pivot_table(index=['class','grade'],values=['name','score'],aggfunc={'name':'count','score':'mean'})

6.如下是dataframe h DataFrame h

请用Python语言得出每行最小值除以每行最大值的商。输出结果应为如下：输出结果

np.random.seed(10) 
h=pd.DataFrame(np.random.randint(1,100,80).reshape(8,-1)) 
min_by_max=h.min(axis=1)/h.max(axis=1) 
min_by_max

7.如下是dataframe i DataFrame i

请用Python语言将dataframe i 里Min. Price 列中的NaN值替换成Min. Price 列的平均值，并将 Max.Price 列中的NaN值替换成Max.Price列的中位数。输出结果应为如下(未截全)：输出结果

i=pd.read_csv('https://raw.githubusercontent.com/selva86/datasets/master/Cars93_miss.csv') 
i.head() 
i['Min.Price'].fillna(i['Min.Price'].mean(),inplace=True) 
i['Max.Price'].fillna(i['Max.Price'].median(),inplace=True) 
i.isnull().sum()

本文转载自网络，原文链接：https://www.toutiao.com/a6848793267161530891/
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：腾讯云MySQL 8.0上线，从此无惧秒杀场景 下一篇：数据科学如何改变社交媒体营销策略

随机推荐

走出实验室: IBM为企业推进人工智能注入

2020年7月9日，2020年世界人工智能大会（the World Artificial Intelligence Con...
新零售行业优质解决方案分享【智能语音点

1、智能语音点餐机解决方案方案架构架构特点基于达摩院特有的多模态交互技术 ...
自学大数据，给IT新手的7个MongoDB实战项

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供...
怎么防御udp攻击

怎么防御udp攻击？UDP Flood是日渐猖厥的流量型 ddos 攻击。常见的情况是利用大...
【活动已结束，获奖人员名单公布】3月Tec

3月Techo Youth高校公开课Demo实操演练【活动已结束】 3月Techo Youth高校公开...
阿里云AIoT发布全新工业和农业云端一体机

发布会传送门： https://yqh.aliyun.com/live/aiotfa 近日，阿里云AIoT春季产品...
盒子科技

客户简介深圳盒子信息科技有限公司成立于2011年，是国家高新技术企业、深圳市高...
新零售行业优质解决方案分享【商超连锁全

中台有机衔接稳定的后台系统和灵活多变的前端业务场景通过抽取后台系统的数据 ...
云计算带来的变革将如何在2021年加速创新

在过去的一年中，云计算已经成为组织应对冠状病毒疫情对其业务不利影响的关键技...
如何修改Windows裸金属服务器网卡的MTU值

最大传输单元（Maximum Transmission Unit，MTU）是指一种通信协议的某一层上所...

数据分析岗Python笔试题

推荐图文

Oracle学习(六)：子查询

百度智能云阿里云和腾讯云的云服务器三者的对比

远程桌面连接（MSTSC方式）_云耀云服务器 HECS_用户

有“车圈”、“车全”等含义：双拼域名chequan.cn在

一日一技：在Python里面实现链式调用

手把手带你使用uni-admin搭建后台管理系统

随机推荐

走出实验室: IBM为企业推进人工智能注入

新零售行业优质解决方案分享【智能语音点

自学大数据，给IT新手的7个MongoDB实战项

怎么防御udp攻击

【活动已结束，获奖人员名单公布】3月Tec

阿里云AIoT发布全新工业和农业云端一体机

盒子科技

新零售行业优质解决方案分享【商超连锁全

云计算带来的变革将如何在2021年加速创新

如何修改Windows裸金属服务器网卡的MTU值

关于我们