查看: 367|回复: 0
打印 上一主题 下一主题

2020年终极项目清单:从新冠可视化到二手车价格估算

[复制链接]

42

主题

42

帖子

140

积分

注册会员

Rank: 2

积分
140
跳转到指定楼层
楼主
发表于 2020-5-5 21:38:57 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
<div contentScore="9631">全文共2542字,预计学习时长11分钟
图源:unsplash
有些人可能快要或者已经开学了,但有些人的“居家令”遥遥无期。当世界恢复如常,你打算从隔离期里带出什么?躺了三个月养出的小肚腩吗?不妨花些时间学习新技能、读书和提高自己。
对于那些对数据分析或数据科学感兴趣的人,本文提供了一份在业余时间可以做的十四个数据科学项目的清单,兼具趣味、技能和价值,快来试试吧。

可视化项目
数据可视化或许是最快完成的项目,下面三个数据集可用于创建一些有趣的可视化效果,以添加到投资组合中。
冠状病毒可视化
难度:容易
数据集:http://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

Plotly是一个了不起的库,它使数据可视化动态化,有吸引力且简单。试试使用Plotly构建动态可视化,展示冠状病毒如何在全球范围内传播。
地表温度可视化
难度:中等
数据集:http://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels
气候变化无可否认。你可以创建一些数据可视化效果,以显示地表温度如何随时间变化。可以通过创建折线图或其他动态的Choropleth贴图来实现。
澳大利亚山火可视化
难度:容易
数据集:http://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland
图源:unsplash
2019-2020年的森林火灾季,也称为“黑色夏天”,始于2019年6月开始的几起严重的山火。据维基百科统计,大火烧毁了1860万公顷土地和5900多座建筑。
你可以利用数据可视化技能,使用Plotly或Matplotlib显示山火的强度和地理影响。

探索性数据分析项目
探索性数据分析(EDA),也称为数据探索,是数据分析过程中的一个步骤,其中使用了多种技术来更好地理解所使用的数据集。
酒精与学业成就
难度:简单
数据集:http://www.kaggle.com/uciml/student-alcohol-consumption
图源:unsplash
饮酒会影响学生的成绩吗?这项数据是从一项对中学数学和葡萄牙语课程的学生进行的调查中获得的。它包含几个变量,例如饮酒量、家庭人数、参与课外活动情况。
利用这一点,探索学校成绩与各种因素之间的关系。还可以看看是否可以根据其他变量来预测学生的最终成绩。
影响员工流失和绩效的最重要因素
难度:容易
数据集:http://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset
IBM创建了一个综合数据集,可以用来了解各种因素如何影响员工的流失和满意度。其中一些变量包括教育程度、工作投入、绩效评估和工作与生活的平衡。
探索此数据集,查看是否有任何确实影响员工满意度的重要变量。此外,看看是否可以将变量根据重要性进行排序。
世界大学排名
难度:容易
数据集:http://www.kaggle.com/mylesoneill/world-university-rankings
你的国家有世界上最好的大学吗?成为“最好”的大学意味着什么?该数据集包含三个全球大学排名。利用这些数据,回答以下问题:
·        顶尖大学在哪些国家?
·        决定一个大学的世界排名的主要因素是什么?
精灵宝可梦数据探索
难度:容易
数据集:http://www.kaggle.com/rounakbanik/pokemon
图源:unsplash
这个数据集包含有关所有七代802种精灵宝可梦的信息,去试试回答下面的问题:
·        哪一代精灵宝可梦最强?哪一代最弱?
·        哪一种精灵宝可梦最强?哪一种最弱?
·        是否可以建立分类器来识别传奇的精灵宝可梦?
·        身体特征与力量状态(进攻、防守、速度等)之间是否有关联?
探索影响预期寿命的因素
难度:容易
数据集:http://www.kaggle.com/kumarajarshi/life-expectancy-who
世卫组织建立了特定时间内所有国家健康状况的数据集,其中包括预期寿命、成人死亡率等方面的统计数据。使用此数据集,探索各种变量之间的关系。对预期寿命的最大影响是什么?
图源:unsplash
创建该数据集是为了回答以下问题:
·        最初选择的各种预测因素是否真的影响预期寿命?实际影响预期寿命的预测变量是什么?

·        预期寿命值低(
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

推荐阅读 More>
广告位




00853澳门论坛X

0511.net镇江网 分享生活 温暖你我

0511.net镇江网|镇江大小事,尽在镇江网! 镇江网由镇江亿速网络科技有限公司组建。镇江网汇集了镇江本地新闻信息,视频专题、国内外新闻、民生资讯、社会新闻、镇江论坛等。镇江网是镇江地区最具影响力的综合性门户网站,是镇江人浏览本地新闻的首选网站。...

点击查看详情 
快速回复 返回顶部 返回列表
友情链接