Python太难了 于是火山引擎VeDI这款产品推出了数据挖掘新思路

2022-11-23 12:42:07  阅读:-  来源:

「自学Python?一般人我还是劝你算了吧!」

在国内知识分享平台「知乎」上,这一吐槽话题获得了超过2600次点赞,引发近600条讨论。

图片1.png

从该话题下的高赞讨论来看,多数人对Python的应用性都持肯定态度,但在门槛上却褒贬不一,有人认为Python能够让新人很快入门,从而在初始阶段就获得成就感,提升兴趣度;而有人则坚持长远发展观点,认为Python在语法上隐藏了大量概念,比如类型、多态应用原理等,如果基本功不扎实,即便是新手入了门,也难以进一步深入。

作为目前被广泛使用的解释型编程语言,Python凭借多种强大的算法和模型,和数据灵活整合分析与建模等功能,近年来风头一时无两。根据2021年TIOBE 编程语言社区的排名数据,Python以市场占比12.90%排名第一位,市场占比上升0.69%;从Python市场占比的历史趋势来看,从2014年开始,Python市场占比就开始逐年走高,至2022年,Python市场占比达到历史最高峰。

但另一方面,Python在使用过程中一直存在门槛问题,这导致企业内除算法工程师之外的员工,很难深度应用。

一般情况下,企业数据的采集、治理、分析、应用往往都在安全权限的管控下有着既定流转链路,各环节对应不同岗位员工的工作要则,但不同岗位工作交接的过程中,却偶有出现能力“断点”。

如,数据开发一般会提供宽表来应对前线业务的需求,但在部分情况下需要将数据做行列转换,才能对数据进行更进一步分析,而这项操作能力对普通业务岗位员工来说,是一道“拦路虎”;即便是置身这一环节“专业对口”的算法工程师,也依旧面临着另一个问题:目前市场上缺少可以将临时生产好的数据与可视化图表联动的产品,但这恰巧又是数据能被后链路环节高效应用的关键。

针对将数据挖掘与可视化图表联动,以及降低非算法工程师岗位对数据挖掘需求的理解门槛,火山引擎数智平台VeDI旗下数智洞察DataWind,近期推出了升级功能:可视化建模。

这项新功能封装了超过30类常见的AI算子能力,用户仅需了解算法的作用,就可以通过配置化的方式配置算法算子的输入和训练目标,完成模型训练,并根据配置的其他数据内容快速得到预测结果。

图片2.png

过去,复杂算法模型往往需要通过Python才得以实现,但现在通过DataWind同样能够完成搭建。

以电商企业场景为例,当员工需要根据现有数据构建「用户回购模型」时,考虑整个过程需要经过数据清洗、格式转换之后采用梯度提升树构建,核心涉及的环节包括合并行、缺失值替换、one-hot编码、梯度提升树、聚合、提取字段总共6个,因此通过DataWind可视化建模构建的「用户回购模型」流程可以参考下图:

图片3.png

可视化搭建的方式,一方面降低了非算法工程师对流程的理解成本,另一方面对算法工程师自身来说,操作也将更加简单便捷,进一步提升工作效率。

而可视化建模只是DataWind近期功能升级的一个缩影,在今年更早之前,DataWind就已经迎来协同层面大动作,实现与飞书、企业微信等在线协同办公IM工具全面协同,用户通过飞书等就可以完成DataWind数据服务一键订阅,随时随地查看数据、使用数据。

图片4.png

据了解,在历经字节跳动内部多业务多场景实践之后,目前火山引擎的系列数智能力已经通过DataWind等产品全面对外输出,并在互联网、汽车、零售、金融等多个行业在内的数百家标杆企业获得应用实效。(作者:潘琛琛