除了R、Python,还有这些重要的数据科学工具

2018-11-16 17:41:22 来源:网络整理 作者:管理员

原标题:除了R、Python,还有这些重要的数据科学工具

除了R、Python,还有这些重要的数据科学工具

大数据文摘出品

编译:蒋晔、小七、蒋宝尚

这年头,如果你不会点儿R或者Python,你都不好意思说你是混数据圈的。

在你向一些大神请教的时候,他可能也会推荐你学习这两个高级编程语言,然后顺便在推荐你了解一下SQL以及Math。如果讲究点的,可能还会传授你一些Spark、AWS/云计算的经验。

嗯!差不多就这些了~

当前主流数据科学领域用的工具就是这些了。

但是,如果你想成为一个数据科学“英雄”,仅仅掌握一些主流的东西是不够的。

今天呢,文摘菌就给你推荐几个好用到爆的小工具~~

Linux

Linux名字应该是如雷贯耳了吧!但很多数据科学家对它的命令行并不熟悉。Bash脚本是计算机科学中最基本的工具,并且数据科学中很大一部分需要编程,因此这项技能至关重要。

除了R、Python,还有这些重要的数据科学工具

我的Linux启动小企鹅

几乎可以肯定的是,你的代码会在linux上开发和部署,使用命令行完成一些工作是非常酷的。与数据科学一样,Python也无法独立于环境工作,并且你必须通过一些命令行界面来处理包、框架管理、环境变量、访问路径($PATH)等等。

Git

Git听名字,你也应该不陌生。大多数数据科学家对git似懂非懂。由于数据科学定义模糊,很多人都不遵循良好的软件开发实践。例如,有人甚至很长一段时间都不知道单元测试。

除了R、Python,还有这些重要的数据科学工具

当你在团队中编码时,你就会知道git是很重要的。如果团队成员提交的代码发生冲突,你得知道如何处理。或者你需要挑选部分代码修复bug、更新……将代码提交到开源或私有的repo(如Github)时,你也可以使用Coveralls之类的东西进行代码测试,并且还有其他框架帮助你在提交时方便地将代码部署到生产中。

REST APIs

现在,你已经训练好了一个模型——然后该怎么办?没有人想看你的Jupyter notebook或者某种蹩脚的交互式shell脚本。此外,除非你在共享环境中进行训练,否则你的模型只能自己使用。仅仅拥有模型是不够的,而这正是大多数据科学家遇到困难的地方。

除了R、Python,还有这些重要的数据科学工具

要从模型中获得实际的预测结果,最好通过标准API调用或开发可用的应用程序。像Amazon SageMaker这样的服务已经得到普及,因为它可以让你的模型和可用程序无缝衔接。

如果你功力深厚,当然你也可以使用Python中的Flask框架自己构建一个。

除了R、Python,还有这些重要的数据科学工具

此外,在后端有许多Python包可进行API调用,因此了解API是什么以及如何在开发中使用API,这会让你有点儿与众不同。

Docker & Kubernetes

这两个工具棒极了。docker允许用户拥有一个生产就绪(production ready)的应用环境,而无需为每个在其上运行的单个服务集中配置生产服务器。与需要安装完整操作系统的虚拟机不同,docker容器在与主机相同的内核上运行,并且轻量得多。

除了R、Python,还有这些重要的数据科学工具

想象一下像Python的venv这样的docker容器,有更多功能。 更高级的机器学习库(如Google的Tensorflow)需要特定的配置,而这些配置很难在某些主机上进行故障排除。因此,docker经常与Tensorflow一起使用,以确保用于模型训练的环境是开发就绪(development-ready)的。

除了R、Python,还有这些重要的数据科学工具

容器化且可扩展的应用程序

随着市场趋向于更多的微型服务和容器化应用,docker因其强大的功能越来越受欢迎。Docker不仅适用于训练模型,也适用于部署。将模型视作服务,你就可以将它们容器化,以便它们具有运行所需的环境,然后可以与应用程序的其他服务无缝交互。这样,你的模型具有可扩展性同时也具有了便携性。

除了R、Python,还有这些重要的数据科学工具

Kubernetes(K8s)是一个在多主机上进行规模管理和部署容器化服务的平台。本质上,这意味着您可以轻松地通过跨水平可扩展集群,管理和部署docker容器。

除了R、Python,还有这些重要的数据科学工具

由于谷歌正在使用Kubernetes来管理他们的Tensorflow容器(还有其他东西),他们进一步开发了Kubeflow,一个在Kubernetes上用于训练和部署模型的开源工作流。容器化的开发和生产正不断与机器学习和数据科学相结合,我相信这些技能对于2019年的数据科学家来说将是重要的。

除了R、Python,还有这些重要的数据科学工具

Apache Airflow

Airflow平台虽然很小众,但是却很酷。Airflow是一个Python平台,可以使用有向无环图(DAG)程序化地创建、调度和监控工作流。

除了R、Python,还有这些重要的数据科学工具

DAG(有向无环图)

这基本上只是意味着你可以随时根据需要轻松地设置Python或bash脚本。与可自定义但不太方便的定时任务(cron job)相比,Airflow能让你在用户友好的GUI中控制调度作业。

Elasticsearch

Elasticsearch同样比较小众。这个有点特别,取决于你是否有搜索/ NLP用例。但是,我可以告诉你在财富50强公司工作,我们有大量的搜索用例,这是我们堆栈中最重要的框架之一。与在Python中从头开始构建某些东西相反,Elastic通过Python客户端便捷地提供了所需的一切。

除了R、Python,还有这些重要的数据科学工具

Elasticsearch让你可以轻松地以容错和可扩展的方式索引和搜索文档。你拥有的数据越多,启动的节点就越多,查询执行的速度就越快。Elastic使用Okapi BM25算法,该算法在功能上非常类似于TF-IDF(词频-逆向文件频率,Elastic以前使用的算法)。它有一大堆花里胡哨的东西,甚至支持多语言分析器等定制插件。

除了R、Python,还有这些重要的数据科学工具Elasticsearch index

由于它本质上是比较查询到的与索引中文档的相似性,因此它也可用于比较文档间的相似性。强烈建议先查看一下Elasticsearch是否提供了所需的一切,而不是直接从scikit-learn包中导入TF-IDF使用。

Homebrew(mac系统)

Ubuntu有apt-get,Redhat有yum,而Windows 10甚至有OneGet 。这些包管理器通过命令行界面(CLI)安装、管理依赖项,并自动更新路径($PATH)。虽然mac系统不能开箱即用,但Homebrew可以通过终端命令轻易安装。

除了R、Python,还有这些重要的数据科学工具

弥补了OS系统无包管理的缺陷

不能在本地安装Apache Spark的小伙伴。可以访问官网,下载后解压,并将spark-shell命令添加到$ PATH中,或者在终端输入brew install apache-spark(注意:要想使用spark,你需要安装scala和java)。

官网

https://spark.apache.org/downloads.html

相关报道:

https://towardsdatascience.com/some-important-data-science-tools-that-arent-python-r-sql-or-math-96a109fa56d

显示全文
为您推荐
喜马拉雅山在哪个国家:主要在中尼交界处(多国国境内)
喜马拉雅山在哪个国家:主要在中尼交界处(多国国境内)

【导读】 喜马拉雅山在哪个国家:主要在中尼交界处(多国国境内),下面是小编为你收集整理的,希望对你有帮助!喜马拉雅山脉是世界上最高的山脉,不过它并不是一座单纯的山峰,而是由一大片山脉形成,因此占地的面积比较大,那么喜马拉雅山脉到底位于哪个国家的地区里呢?接下来就跟着探秘志的小编一起来了解一下吧!喜马拉雅山......

发布时间:2023-07-01 02:01:22

高速ETC龙门架什么功能
高速ETC龙门架什么功能

【导读】 高速ETC龙门架什么功能,下面是小编为你收集整理的,希望对你有帮助!1、ETC龙门架系统是一种类似交通探头的设施,架设在高速公路上方,替代原有的省界收费站的功能,实现快速不停车通过。2、其实在龙门架上可以安装一些识别车辆信息的装置,通过安装在车辆挡风玻璃上的车载电子标......

发布时间:2023-07-01 01:01:21

煎锅可以炒菜吗
煎锅可以炒菜吗

【导读】 煎锅可以炒菜吗,下面是小编为你收集整理的,希望对你有帮助!煎锅可以炒菜。煎锅使用寿命长,热效率高,辐射小,但煎锅边太浅,炒菜时菜很容易掉外面去,并且炒菜时很容易把特氟龙涂层给弄掉。煎锅的选择:1、煎锅并不是越大越好,如果煎锅太大,会造成煎锅的损耗。因此我们购......

发布时间:2023-07-01 00:01:31

1987年新疆和田生化僵尸事件,丧尸攻击核电站(谣言)
1987年新疆和田生化僵尸事件,丧尸攻击核电站(谣言)

【导读】 1987年新疆和田生化僵尸事件,丧尸攻击核电站(谣言),下面是小编为你收集整理的,希望对你有帮助!网上传闻,1987年三月,在我国的新疆和田曾经发生了一场生化灾难。一群丧尸向核电站发起了攻击,军方秘密出动坦克部队将其消灭。在数月之后政府宣布了这一事件,其实为武装恐怖分子蓄意破坏事件。然而却有网友翻......

发布时间:2023-06-30 23:01:21

立春吃什么 禁忌有哪些
立春吃什么 禁忌有哪些

【导读】 立春吃什么 禁忌有哪些,下面是小编为你收集整理的,希望对你有帮助!说到我们国家的二十四节气,想必大家应该都了解,但是真正要说到这个可能很少人能够说出来吧。今天是立春,很多人可能都知道立春的意思就是春天要来了,但是并不知道立春到底含义是什么。比如说立春应该吃些什么呢?......

发布时间:2023-06-30 21:01:19

赛布岛死亡之谜 赛布尔岛的物质组成主要是什么
赛布岛死亡之谜 赛布尔岛的物质组成主要是什么

【导读】 赛布岛死亡之谜 赛布尔岛的物质组成主要是什么,下面是小编为你收集整理的,希望对你有帮助!位于加拿大哈里法克斯市东南方向大约300公里的大西洋上有着一座小岛,这座小岛是让所有海员,船员都非常恐惧的小岛,这座岛叫做“赛布岛”。这座岛的上面荒凉的可怕,整座岛屿全部都是细沙,没有高大的数目,只有......

发布时间:2023-06-30 20:01:23

小白嘴山药怎么吃
小白嘴山药怎么吃

【导读】 小白嘴山药怎么吃,下面是小编为你收集整理的,希望对你有帮助!香酥山药:配料有鲜山药500克,白糖120克,醋30克,菜油600克,淀粉,味精适量。制法:1、将山药洗净上笼蒸熟,剥去皮,纵剖两片再切成寸段。2、菜油烧热,山药段炸成金黄色捞出。3、倾出余油,放人炸......

发布时间:2023-06-30 19:01:13

一词压两宋,孤篇盖全唐是什么意思?指的是哪几篇文章?
一词压两宋,孤篇盖全唐是什么意思?指的是哪几篇文章?

【导读】 一词压两宋,孤篇盖全唐是什么意思?指的是哪几篇文章?,下面是小编为你收集整理的,希望对你有帮助!之前在中学时就听说过一句话,叫“一词压两宋,孤篇盖全唐”了。大概就是说这一首词就可以压下宋朝所有词的锋芒,这一篇诗文就可以盖过唐朝所有诗文的光芒。这样一看,小编都在心里犯嘀咕了,这是多么大的夸赞啊。仅......

发布时间:2023-06-30 18:01:26

月球上有水吗?科学证明告诉你月球上到底有没有水
月球上有水吗?科学证明告诉你月球上到底有没有水

【导读】 月球上有水吗?科学证明告诉你月球上到底有没有水,下面是小编为你收集整理的,希望对你有帮助!每当夜幕降临,一轮明月悬挂在高高的夜空时,你也许会想:月球上有水吗?它和地球一样吗?月球上除了有水还有什么?这些问题,不但你在想,也一直是科学家在探索研究的课题。早在20世纪60年代,阿波罗登月计划的......

发布时间:2023-06-30 17:01:23

accdata是什么文件夹
accdata是什么文件夹

【导读】 accdata是什么文件夹,下面是小编为你收集整理的,希望对你有帮助!accdata是视频缓存的文件夹,如果手机使用优酷等视频软件,那么缓存的视频会保存在这个文件夹下。手机使用技巧:1、在手机的文件管理页面,用户可以使用搜索功能,可以输入文件夹的名字进行搜索。2、手机内......

发布时间:2023-06-30 16:01:36

史前时期究竟是什么样的?答案就在这些石刻当中
史前时期究竟是什么样的?答案就在这些石刻当中

【导读】 史前时期究竟是什么样的?答案就在这些石刻当中,下面是小编为你收集整理的,希望对你有帮助!在我们现在人类已知的文明里,最远也只不过能够追溯到5000年前的时候。再远的史前历史就很难追溯到了。只要起史前文明,对于我们每个人来说,都是一个非常具有吸引力的话题,在这个事情当中,存在着太多太多的未......

发布时间:2023-06-30 15:01:14

远看灯火照,近看像个庙,里头人马喊,外面哈哈笑,形容的是什么?(含答案)
远看灯火照,近看像个庙,里头人马喊,外面哈哈笑,形容的是什么?(含答案)

【导读】 远看灯火照,近看像个庙,里头人马喊,外面哈哈笑,形容的是什么?(含答案),下面是小编为你收集整理的,希望对你有帮助!说到这个皮影戏还真的是非常有意思的一个东西,但是现在很多人看不到了,只在一些特定的地方能看到了,所以文化传承这个东西太重要了,不传承就会慢慢消失,最近很多人有看到一句话,那就是“远看灯火照,近看像个庙......

发布时间:2023-06-30 14:01:12