作为一个有抱负的数据科学家,你一定听过无数次"做数据科学项目"的建议。
数据科学项目不仅是一个很好的学习经验,而且还能帮助你从众多希望进入该领域的数据科学爱好者中脱颖而出。
然而,并非所有的数据科学项目都能帮助你的简历脱颖而出。事实上,在你的简历中列出错误的项目会造成更大的伤害。
在这篇文章中,我将引导你了解那些在你的简历上必须有的项目。
我还将为你提供每个项目的实验样本数据集,以及相关的教程,以帮助你完成该项目。
技能1:数据收集
照片JamesHarrisononUnsplash
数据收集和预处理是作为一个数据科学家所应具备的最重要的技能之一。
在我的数据科学工作中,我的大部分工作涉及到Python中的数据收集和清理。在了解业务需求后,我们需要在互联网上获得相关数据。
这可以通过使用API或网络搜刮器来完成。一旦完成,就需要对数据进行清理,并将其存储到数据框架中,其格式可以作为输入输入到机器学习模型。
这是数据科学家的工作中最耗时的方面。
我建议通过完成以下项目来展示你在数据收集和预处理方面的技能。
网络爬虫--食品评论网站
教程:使用BeautifulSoup进行Zomato网络刮削
语言:Python
从一个食品配送网站上爬取评论是一个有趣而实用的项目,可以在你的简历中找到。
只需建立一个爬虫,从这个网站的所有网页上收集所有的评论信息,并将其存储在一个数据框中。
如果你想让这个项目更进一步,你可以用收集到的数据建立一个情感分析模型,对这些评论中哪些是正面的,哪些是负面的进行分类。
下次你要找东西吃的时候,就选一家有最佳整体情绪的评论的餐厅。
网络爬虫--在线课程网站
教程:在8分钟内用Python构建一个网络搜刮器
语言:Python
想在年找到最好的在线课程吗?在成百上千的数据科学课程中,要想找到一个价格合理,但评价很高的课程是很难的。
你可以通过爬虫在线课程网站并将所有结果存储到一个数据框架中来完成。在这个项目上更进一步,你还可以围绕价格和评级等变量创建可视化,以找到一个既负担得起又质量好的课程。
你还可以创建一个情感分析模型,得出围绕每个在线课程的整体情感。然后,你可以选择做整体情绪最高的课程。
创建一些项目,使用API或其他一些外部工具收集数据。这些技能通常会在你开始工作时派上用场。
大多数依赖第三方数据的公司通常会购买API权限,而你需要在这些外部工具的帮助下进行数据收集。
你可以做的一个样本项目。使用Twitter的API来收集与特定标签相关的数据,并将数据存储在一个数据框中。
技能2:探索性数据分析
照片:LukeChesseronUnsplash
在收集和存储数据后,你需要对数据框架中的所有变量进行分析。
你需要观察每个变量是如何分布的,并了解它们之间的关系。你还必须能够在现有数据的帮助下回答问题。
这是你作为一个数据科学家会经常做的工作,也许比预测性建模还要多。
下面是一些EDA项目的想法。
识别心脏疾病的风险因素
数据集。弗雷明汉心脏研究
教程:弗雷明汉心脏研究。决策树
语言:Python或R
这个数据集由胆固醇、年龄、糖尿病和家族史等预测因素组成,用于预测病人的心脏病发病情况。
你可以使用Python或R来分析这个数据集中存在的关系,并得出问题的答案,例如。
糖尿病患者是否更有可能在早期就患上心脏疾病?
是否有一个特定的人口群体比其他人更容易患心脏病?
经常锻炼是否会降低患心脏病的风险?
吸烟者是否比不吸烟者更容易患心脏病?
能够在现有数据的帮助下回答这些问题,是一个数据科学家应该具备的重要技能。
这个项目不仅有助于加强你作为分析师的技能,而且还能展示你从大型数据集中获得洞察力的能力。
世界幸福指数报告
数据集:世界幸福报告
教程:《世界幸福报告》EDA
语言:Python
《世界幸福报告》追踪六个因素来衡量全球的幸福感--预期寿命、经济、社会支持、没有腐败、自由和慷慨。
在对这个数据集进行分析时,你可以回答以下问题。
哪个国家是世界上最幸福的国家?
对一个国家的幸福最重要的贡献因素是什么?
整体幸福感是在增加还是在减少?
同样,这是一个有助于提高你作为一个分析员的技能的项目。我在大多数成功的数据分析师身上看到的一个特质是好奇心。
数据科学家和分析员总是在寻找促成因素。
他们总是在寻找变量之间的关系,并不断提出问题。
如果你是一个有抱负的数据科学家,做这样的项目将帮助你培养分析能力。
技能3:数据可视化
照片:LukasBlazekonUnsplash
当你开始作为一个数据科学家工作时,你的客户和利益相关者通常都是非技术性的人。
你将需要分解你的洞察力,并向非技术性的观众展示你的发现。
做到这一点的最好方法是以可视化的形式。
呈现交互式仪表盘将帮助你更好地传达你的洞察力,因为图表在第一眼就很容易理解。
正因为如此,许多公司将数据可视化列为数据科学相关职位的必备技能。
这里有一些项目,你可以在你的作品集上展示你的数据可视化技能。
构建一个Covid-19仪表板
数据集:约翰霍普金斯大学的Covid-19数据存储库
教程:用Python和Tableau建立Covid-19仪表盘
语言:Python
你首先需要用Python对上面的数据集进行预处理。然后,你可以使用Tableau创建一个互动的Covid-19仪表盘。
Tableau是最受欢迎的数据可视化工具之一,也是大多数初级数据科学职位的前提条件。
使用Tableau建立一个仪表盘并在你的作品集上展示,将有助于你脱颖而出,因为它显示了你对该工具的熟练使用。
构建一个IMDB-电影数据集仪表板
数据集:IMDb评分最高的电影
教程。:用Tableau探索IMDb的前名
你可以用IMDb数据集进行实验,用Tableau创建一个交互式电影仪表盘。
正如我上面提到的,展示你建立的Tableau仪表盘可以帮助你的作品集脱颖而出。
Tableau的另一个好处是,你可以把你的可视化内容上传到TableauPublic,并与任何想使用你的仪表盘的人分享链接。
这意味着,潜在的雇主可以与你的仪表盘进行互动,从而激发出兴趣。一旦他们对你的项目感兴趣,并能实际玩转最终产品,你就已经离得到这份工作更近了一步。
如果你想开始使用Tableau,你可以访问我的教程,这里。
技能4:机器学习
照片:KevinKuonUnsplash
最后,你需要展示项目,证明你在机器学习方面的熟练程度。
我建议同时做监督和无监督的机器学习项目。
食品评论的情绪分析
数据集:亚马逊精美食品评论数据集
教程:Python进行情感分析的初学者指南
语言:Python
情感分析是机器学习的一个非常重要的方面。企业经常使用它来衡量客户对其产品的整体反应。
客户通常在社交媒体和客户反馈论坛上谈论产品。这些数据可以被收集和分析,以了解不同人对不同营销策略的反应。
根据所进行的情感分析,公司可以对其产品进行不同的定位,或改变其目标受众。
我建议在你的投资组合中展示一个情感分析项目,因为几乎所有的企业都有社交媒体的存在,都需要衡量客户的反馈。
预期寿命预测
数据集:预期寿命数据集
教程:生命期望值回归
语言:Python
在这个项目中,你将根据教育、婴儿死亡人数、酒精消费和成人死亡率等变量来预测一个人的预期寿命。
我上面列出的情感分析项目是一个分类问题,这就是为什么我在列表中加入一个回归问题。
在简历上展示各种项目,以显示你在不同领域的专业知识是很重要的。
乳腺癌分析
数据集。乳腺癌数据集
教程:乳腺癌数据集的聚类分析
语言:Python
在这个项目中,你将使用K-means聚类算法,根据目标属性检测乳腺癌的存在。
K-means聚类是一种无监督的学习技术。
在你的投资组合中拥有聚类项目是很重要的,因为大多数现实世界的数据是没有标签的。
即使是公司收集的大量数据集通常也没有训练标签。作为一个数据科学家,你可能需要使用无监督学习技术自己做标签。
结论
你需要展示展示各种技能的项目--包括数据收集、分析、可视化和机器学习。
在线课程并不足以让你获得所有这些领域的技能。然而,你可以找到几乎每一种你想做的项目的教程。
你所需要的只是Python的基本知识,你就能跟着这些教程走。
一旦你得到了所有的代码,并且能够正确地跟着做,你就可以复制解决方案,自己去做各种不同的项目。
记住,如果你是数据科学领域的初学者,没有该学科的学位或硕士学位,在你的作品集上展示项目是很重要的。
作品集项目是向潜在雇主展示你的技能的最佳方式之一,尤其是为了在该领域找到你的第一份入门工作。在这里阅读我是如何得到我的第一个数据科学实习机会的。
迟早,那些赢家是那些认为自己可以的人--保罗-托尼耶
NatasshaSelvaraj(LinkedIn)我目前正在攻读计算机科学学位,我主修数据科学。我的兴趣在于机器学习领域,我已经在这个领域的各种项目中工作。我还喜欢解决问题和编程,我每天都在做这些工作。
原创。
重建我的7个Python项目
你的投资组合中的最佳数据科学项目
数据科学初学者的投资组合指南
预览时标签不可点收录于话题#个上一篇下一篇