PiFlow 朱小杰:科学家更爱开源|Gitee 封面人物第 19 期

育儿 2019-12-31 13:18 阅读:55

本期嘉宾:

朱小杰:硕士,毕业于北京航空航天大学计算机系。2013年加入中国科学院计算机网络信息中心,主要研究方向大数据处理,大数据流水线。国家重点研发计划-云计算和大数据专项“面向智能制造的供应链流程管控软件平台”项目子课题负责人。PiFlow 项目技术负责人。

PiFlow:混合型科学大数据流水线,包含丰富的处理器组件,是一个简单易用,功能强大的大数据流水线。2019 年 3 月入选 GVP—Gitee最有价值开源项目。

正文

PiFlow项目是怎样开始的?为什么在今年 3 月选择开源?

PiFlow 是一个大数据处理流水线,在项目最初阶段,我们并没有一个很好听的名字,而是本着解决大数据处理过程中的实际问题的初心,启动了这个科研项目。

在项目初期,部门领导给予了充分支持和鼓励,我们曾一度有 8 人投入在这个项目中。而后,有越来越多的 PiFlow 可以解决的问题作为实际需求被提出,我们也发现业界对大数据流水线技术的追逐越来越热,而市面上并没有完全满足相关技术需求的产品,基于我们对专业性和其价值的判断,我们决定将其开源。

PiFlow 的团队规模和构成是怎样的?男女比例如何?

PiFlow 团队由产品经理、架构师、后端核心人员、前端核心人员组成。最多的时候有 1 个产品经理、1 个架构师、2 个前端,3 个后端人员在投入。其中博士 2 名,硕士 3 名,和本科生 3 名。人员男女比在 。

PiFlow 是一个混合型科学大数据流水线,可以着重介绍一下 PiFlow 的特性,以及未来的发展规划吗?

PiFlow 是一款基于分布式计算 Spark 的大数据处理,以所见即所得的简洁方式,实现大数据采集、处理、存储与分析流程化配置、运行与智能监控,了100+的标准化组件, 包括 Hadoop 、Spark、MLlib、Hive、Solr、Redis 等,更支持面向领域、灵活的二次组件。PiFlow 未来将会在的功能性、稳定性、可靠性等方面进一步完善。

您作为 PiFlow 的技术负责人,项目过程中遇到的最大的困难是什么?

PiFlow 在项目的后期,团队成员由于工期等各方面原因都被借调参与其他项目,曾经很长一段时间,Gitee 上只有我一个人在提交代码,导致 PiFlow 的进度不是很理想,一度想过要放弃。不过想到当初做 PiFlow 的初心,部门领导也调动资源大力支持,我在这个过程中也备受鼓舞,最终我们坚持下来了,并取得了非常不错的成绩。不忘初心方得始终!

很多人认为,现在大数据的价值在一定程度上被夸大了,对此您有什么看法?您认为大数据未来的研究方向是什么?这项技术如何更好地落地?

您负责的课题是关于“面向智能制造的供应链流程管控软件平台”那么您对大数据与传统行业之间的结合有什么看法和展望?

产业互联网将推动大数据落地。当前互联网正在经历从消费互联网向产业互联网过渡,产业互联网将利用大数据、物联网、人工智能等技术来赋能广大的传统产业,可以说产业互联网的发展空间非常大,而大数据则是产业互联网发展的一个重点。

当初大学为什么选择了计算机专业?之后又是如何接触到大数据,开始研究大数据的?

我从小就很喜欢数学,对数字感兴趣。大学毕业后,很多同学去了各行各业,也有改行做的。但我一直选择从事我喜欢的工作内容,兴趣是最大的驱动力。开始接触大数据也是跟部门的发展方向紧密相关的,我们部门是大数据部,主要的一个研究方向是知识图谱。而知识图谱构建会涉及到海量多源异构大数据处理,我们在这个过程中通过需求的提炼,形成了大数据流水线 PiFlow。

计算机网络信息中心的工作氛围如何?内部项目的流程是怎样的?

在计算机网络信息中心工作可以接触有很多有的前沿理论和科研项目,这些往往需要投入大量时间去做。用技术和产出说话,大家都很自驱,工作可以很纯粹。而且周围很多人都是高校毕业的高材生、博士生,跟优秀的人一起工作,是件很开心的事。

内部流程也非常规范,每个项目都会配备专门的项目经理,从项目的需求阶段开始,到设计、,全程协调。

计算机网络信息中心作为一个科研机构,在研发过程中,如何确定研发方向?如何收集和了解需求?遇到技术瓶颈时如何解决?

应该说所有的软件研发都是需求驱动的,PiFlow 也不例外。我们团队在与领域科学家的合作过程中,需要面向不同学科领域的数据特征,进行数据的抽取、清洗与分析工作,科学家们提出的组件化需求、复用性需求、可装卸需求、可监控需求以及大规模处理能力需求,是我们的直接且有效的需求。

产品研发难免有遇到困难的时候,通常的方法一是查阅最新的文献是否有前沿的理论方法,二是借鉴开源社区是否有相同的问题以及技术实现路径。

在科研领域,关于大数据的研究已有不少激动人心的成果,您认为这样的前沿技术如何在各行各业中得到更好的应用?

您作为科研界的一员对开源有什么看法?开源 2019 年热度空前,您觉得开源这种方式会对科研领域带来什么影响吗?

就整个开源社区而言,科学家群体一直是一支积极的参与和贡献力量,比如现在大家耳熟能详的大数据计算框架 Spark,就是 2010 年伯克利大学的 AMPLab 实验室贡献给开源社区的。事实上,科学家群体在天文、物理、生物等各学科领域里,都是积极的开源倡导者与实践者,公众对学科领域比较陌生,因此对学科领域内的开源社区与软件了解会相对少些。科研界对开源一直持开放与支持的态度,科研工们将一如既往地积极参与社区、贡献社区。

您如何平衡工作与生活?可以分享一下您的业余爱好吗?

我喜欢自律一些的生活,通常到单位的时间比较早,当然也不喜欢工作得很晚,我喜欢高效有计划性地工作。科研工作需要有清醒的头脑,累了就换换脑筋。每周我都会跟同事们一起做做健身操,从运动中感受快乐。

封面人物小档案

人物:朱小杰

技能:大数据处理、大数据流水线

码龄:10年

最爱的开源项目:Spark

技术界的偶像:马云

最爱的电子产品:kindle

爱好:打木球

文章为受采访者独立观点,不代表立场