Kyligence技术合伙人祝海林:希望通过语言这种底层技术让AI和大数据更加普世化 | DIVE 基础软件大会专访
发布于 2021-11-04 14:03 ,所属分类:软件编程学习资料
在当前数字化转型的大背景下,数据和 AI 已然成为了企业生存和发展的必备生产要素。作为支撑所有上层技术的根基,编程语言近年来越来越趋向领域化,而大数据和 AI 的蓬勃发展,必然需要一个更加为之量身定制的语言,以 SQLFlow、MLSQL 为代表的这类语言的诞生正是顺应了这个趋势。本文,InfoQ 有幸采访到了【DIVE 全球基础软件创新大会 2021】编程语言新风向专场讲师、Kyligence 技术合伙人 / 资深数据架构师、MLSQL 作者祝海林,听他分享当前大背景下我们为什么需要一门面向大数据和 AI 的编程语言。
MLSQL 语言是人工智能、大数据、云计算三者融合之下的时代需求产物,传统语言难以胜任这些新的需求。
我现在在 Kyligence 主要负责 MLSQL 开源相关的工作,目前已经构建起了一支专职的开源团队。随着团队的全职人员不断扩充,也说明了我们公司对开源投入很大,也很有信心。另外,这个团队我们还在继续招人。
祝海林:天下武功,唯“快”不破。这个快又包含了两个层面。第一个是,我的软件够快,比如 Kyligence 旗下的开源项目 Kylin 就在 OLAP 层面做到了极致的快,能对大数据做到亚秒级的查询速度。第二个是,软件使用者效率快,也就是基于这个系统,使用者能够高效率地完成自己的任务和工作,原本要一周能完成的事情,现在可以两小时就完成,从而让生活变得更加简单。
MLSQL 的出发点是第二个,我们希望随着人工智能、大数据、云计算的发展,在这个大的技术发展环境下,用户可以用一个语言,一个引擎就能在云上、云下涵盖 AI/BigData 的所有任务,比如 OLAP 查询、ETL 处理、流批一体、机器学习等等。这个语言必须足够简单,能够让大多数人接受,这个引擎也必须足够简单,能够轻易被维护。而在 MLSQL 之前,用户往往需要众多的系统和语言进行组合,才能完成复杂的大数据和 AI 任务的,这极大地降低了使用者的效率,提高了维护成本,使得大数据和 AI 难以真正走入寻常百姓家。
首先,MLSQL 这个语言天然是分布式执行的,大部分传统语言比如 Python、Java 必须依赖框架以及新的编程范式才能完成分布式。典型的如 Java 的虚拟机(执行引擎)就是单机的,语言也是单机的,你必须依赖 Spark 这种框架,学习它的分布式编程范式,你才能进行分布式数据处理。
第二,传统语言对于用户来说入门太难了,原因在于它还是太“底层了”。真正效率高的是什么语言?是声明式语言,比如 SQL,还有比如命令行。声明式语言,不用你在编程的时候和业务逻辑没关系的东西,你只要描述你的任务是什么,其他的比如任务如何生成,如何拆解和执行,都是底层语言引擎需要做的事情。这样才能让更多的人使用起来。毕竟,会 SQL 的人肯定比会 Python 的人多,对不对?
第三,新时代,我们不再要求语言必须有那种纳秒、微秒级别的响应时间了。比如在做大数据分析、ETL、亦或是 AI 的时候,我们大体都是毫秒级,秒级或者以上其实都是可以接受的。这个时候,分布式的解释型语言就很有价值了,虽然没办法做到纳秒、微秒级别的执行速度,但是在可接受范围内,它比传统语言更易用。
第四,传统语言都没有在语言层面提供安全能力。比如哪些语法,哪些特性可以针对指定用户开启或关闭。MLSQL 在设计之初就提供了这种能力,比如用户可不可以使用 MLSQL 里的 load 语句加载数据,能加载什么数据,加载的数据的哪些列,哪些行,要不要执行脱敏策略等等,都被内置在语言层面。
还有就是扩展性问题,传统语言语法以及对语言引擎(VM)做扩展,是有很高的门槛的。MLSQL 执行引擎是使用 Scala/Java 开发的,而且设计的时候就是插件内核,我们可以很轻易的通过插件机制扩展 MLSQL 的语法,或者增强执行引擎的能力。
MLSQL 就是这么一门面向大数据和 AI 设计的声明式云原生语言,以 SQL 为主体,保留了其分布式,声明式特性,同时弥补了原生 SQL 可编程性的不足。在保证足够简单,同时又可以高度灵活的情况下,让用户更好的玩转数据,所见即所得。
祝海林:最早 MLSQL 是为了使用 SQL 解决 ETL 而诞生的,后面我们覆盖到了流,到后来,我们发现还可以做 OLAP 查询服务,再后来,我们发现我们还可以完成机器学习的工作,很惊喜的是,不仅可以做到,效果还相当的好。
在这期间,我们给 SQL 添加变量,分支语句,函数,模块等标准语言的支持,同时还拥抱了 Python 语言(语言内置了 Python 脚本执行引擎)从而具备拥抱更大的 AI 生态的能力。到这个时候,我们就发现,MLSQL 已经有一个语言的完整形态了,可以解决大数据和 AI 领域的大多数问题。
开源还是挺费钱的,尤其是人力方面。
祝海林:挑战肯定是有的。一个比较典型的例子是,MLSQL 涉及的技术点太多了,作为开发者来说要把这些技术点都做好,这就非常有挑战了。
比如在开发 MLSQL 的过程中,为了展示 MLSQL 的能力,我们需要一个好的 Web 端,这个时候我就重新去学 JavaScript/TypeScript,使用 ReactJs 去开发了一套 Web Console,为了能够在桌面上使用,我学习 VSCode 扩展开发,开发了 VSCode MLSQL Lang 插件,为了能够把它更好地部署到 K8s 上,我学习 Go 语言,开发了 mlsql-deploy, 为了能够支持分支语句,我用 Scala 手写了一套表达式引擎,从词法分析,到语法分析,到最后生成目标代码全部自己实现了一遍。
除此之外,各种大数据技术你都要有一定的掌控,融入进来,这才能做到让大家开箱即得,这包括诸如 CDC(我们支持 MySQL/HBase)、数据湖(Delta Lake)、物化视图、聚合下推等等大数据相关技术。
印象中,倒是没有遇到技术上比较深刻的事情,但是有一个很深的感觉就是,现代软件的复杂度太高了,一个人的时间是怎么着都不够的,无论你的精力和速度有多快。除非你是做那种小而美的软件,解决一个非常领域化的问题,才可能持续单兵作战。
祝海林:我们的推广其实非常之少,开源后,如果这门语言确实解决了一些问题,并且能够给用户带来收益,那么就会有更多的用户愿意去尝试。很多用户都用了几年后,突然某天在群里提了一嘴,我才知道,竟然有用这么久的用户了。
在我加入 Kyligence 前的这些年,主要时间都花在了架构设计和代码开发上,用于宣传的时间非常少,偶尔去参加一些 meetup 做个分享,或者给一些公司做个布道,这期间也得到了很多国内媒体的帮助,他们也愿意支持像我这样的项目,很是感谢。
MLSQL 的推广单纯依靠社区的自然生长确实是不够的,而且宣传这个东西,是需要有一定的财力支持的。比如我做官网,自己掏钱买了云主机,买了域名,然后我发现我买不起 https 认证,尽管我一直想搭建一个线上的体验服务,让用户可以直接体验 MLSQL 语言,但是考虑到昂贵的费用(大数据嘛,机器配置要求略高)一直没有买,这个时候虽然时不时会有用户会提供机器支援,但很不稳定,这对于宣传其实是很负面的。
所以我个人认为,开源项目最好还是后面能有一家公司做支持。国外的很多开源项目虽然没有公司支持,但是有基金会支持。总之,开源还是挺费钱的,尤其是人力方面。
祝海林:远景目标是,MLSQL 能够成为大数据和 AI 的标准语言,同时实现数据的平民化,帮助中小企业非常低成本的落地大数据和 AI。我们现在正在努力将其打造成一个可信赖的产品,这包括易用性、性能、稳定性、安全等方方面面。
我们希望从语言这种更底层的方式,去更普世化地解决一些问题,让大数据和 AI 变得更简单,更加平民化。
祝海林:MLSQL 是我 16 年在北京的时候开源出来的,后面来到了杭州,经过五年的努力,MLSQL 已经有一定的成熟度,也有不少小创新,在很多公司得到了应用实践,不少互联网公司也借鉴了 MLSQL 的很多理念。
这个时候我觉得 MLSQL 如果一直作为一个个人开发者的作品,会影响它的发展,我希望它能踏入一个新的快车道。我和 Kyligence CEO 韩卿先生是很多年的“好友”,这个时候他经过长时间的观察,也颇看好 MLSQL, 而在我看来,Kyligence 也是一家非常优秀的拥有开源社区运营经验的公司,所以我们很快一拍即合,最后 2021 年的时候,我以技术合伙人的身份加入了 Kyligence。
祝海林:Kyligence 一直都对开源项目有着较大的投入,Kylin 已经进入 Apache 很多年,而且也获得很大的成功。总体来看,Kylin 以强大的分析能力和丰富的周边生态而备受欢迎,Kylin 其实是非常好地覆盖了 BI 这一部分,部分覆盖 ETL/ML。那 MLSQL 则是很好地覆盖了 ETL/ML,部分覆盖了 BI ,所以两者具有很好的互补性。第二点,我们公司也尝试从语言层面去解决大数据和 AI 领域的问题。可能以前大部分还是从应用产品或者组件的方式去切入,这种方式的缺点是解决问题更像打地鼠,出现一个问题,用一个框架或者产品去解决。我们现在是希望能够通过这种更底层的方式,去更普世化地解决一些问题,让大数据和 AI 变得更简单,更加平民化。
祝海林:对于 MLSQL,用过的都说好。好些用户都是三年以上老用户了,唯一不足的是,一线互联网公司很少有用的。不过因为之前在社区方面没有做太多工作,甚至从来没有组织过任何活动,属于完全放养状态,所以用户数也在预料之中。今年(2021 年)开始,在公司的支持下,我已经在规划这方面的工作了。在十月、十一月,我们很快会有很多新的社区工作落地,这包括新的官网、11 月要开始的 Meetup、线上体验版,还有专门的gongzhong号,知乎专栏等等。我对未来还是充满信心的,这五年技术的发展也让我愈发相信 MLSQL 的技术路线是走对的。
嘉宾介绍:
祝海林,Kyligence 技术合伙人 / 资深数据架构师、MLSQL 作者,拥有 13+ 年研发经验。最近几年专注在 Data + AI 融合方向上,致力于帮助企业更好落地 Data/AI。
祝海林老师将在 InfoQ 举办的首届【DIVE 全球基础软件创新大会 2021】上分享《面向 Data 和 AI 的语言 MLSQL》的主题演讲。无论是企业还是一线研发人员,都可以通过 MLSQL 更好地去落地大数据和 AI。
此外,由 Kyligence 主办的首期 Data + AI Meetup 将于 11 月 4 日 19:00-20:45 与大家在线上相见,这一期,我们一起来聊聊最近很火的向量化引擎。通过这次分享你将能更好地认识向量化引擎的原理和作用,以及最新的前沿探索和研究哦~
欢迎对大数据生态圈感兴趣的同学复制链接到网站查看
相关资源