2022-04-27 09:01:18 来源:商业新知网
我估计:除了图像处理,从事工业大数据分析时, 95%以上的工作都可以用线性回归、决策树、方差分析、频谱分析、最大似然估计、取平均数等基本的统计或数据处理方法完成。但是,人们讲到这些方法时,却往往会把重点放在深度学习、模式识别等。
现实中,这些高级方法往往是 “杀鸡用牛刀”,反而不好用。因为这些方法,难以与人的知识和认识结合起来。人们乐于宣传这些方法的原因,除了便于发表文章,就是便于保密。从事相关工作的朋友必须明白;自己要对自己的时间负责。最好用简单的办法分析问题。
但是,做数据分析工作其实很不容易。即便对数学和统计学功底好的人来说,人才的 “成才率”恐怕不会高于10%。那么,困难到底在什么地方?要理解这种困难,还是从《黑天鹅》中的那个故事谈起。作者问道:
一个硬币丢了 99次,每次都是正面朝上。请问第100次正面朝上的概率是多大?
学霸的标准答案是:第 100次正面朝上的概率与前面99次的结果没有关系。所以,概率是50%。而老油条的答案则是:前面连续99次都朝上了,你还会认为正面朝上的概率是50%吗?前提不成立了!
现实中, 数据分析的难点,在于认清正确的前提。
错误使用统计分析方法的现象非常普遍。我在宝钢工作时,看到钢铁行业同仁们写的论文,就对办公室的年轻人说:真想把这些论文作为反面案例,告诉大家什么是错误的分析方法。在这些例子中,有的回归分析的前提不成立,有人在选取样本时犯了初级错误。
这种现象并不奇怪。
我参与研究生面试时,经常遇到这样的事情:给学生出一道复杂的计算题,基本上都能正确地计算出来。但是,如果问基本的概念,很多人就回答不出来了。更有意思的是:如果把计算题出得特别简单、不再需要采用复杂公式时,多数学生居然回答不出来了!
我们现在的教育,总是考核在 “标准前提下,给出标准答案”。学生没有怀疑“前提”的习惯。这样的学生有知识,却不会用知识。
回到前面的问题。用线性回归可以清晰地分析一个变量的作用。但前提是其它变量的干扰较小、且具有随机性。解决这个问题的办法之一,是尽量固定其他变量。科学试验往往就是这么做。
但工业现场往往受各种约束,总会有很多干扰。而且,这些干扰并不是随机的。变量选择有问题时,小的非随机干扰,就会对分析结果产生很大的影响。所以,做数据分析时,必须时刻警惕非随机系统干扰的影响,并设法剔除它。
处理和发现非随机的系统干扰很难。原因是这样的因素太多。比如,任何一个变量的采集过程,都可能存在非随机系统干扰。而识别这些干扰,需要更多的数据项。这样,分析问题时面对的数据项就会越来越多。人的注意力就容易淹没在数据的海洋中。更糟糕的是:受数据条件制约,有些系统干扰可能就是不可见的。
现场中的有些干扰往往难以排除。我曾经遇到过这样一件事:
某钢种的性能波动非常大。强度 700MPa级的钢种,波动的标准差就高达60MPa。我分析后认为:这是某环节的系统干扰导致的。于是,我就设计了一个实验室试验、设法避开这种干扰。后来,同事在实验室里做了这个试验。他们做了几十对试样,每对试样的强度差不超过3MPa.
对前提做出判断的时候,往往需要较为全面的专业知识。这是制约数据分析人才 “成才率”提高的主要原因。
利用统计软件,做一次回归分析只要几秒钟的时间。数据分析师的绝大多数时间都用来对数据合理性进行分析。如果自己缺乏专业知识,可能几分钟就要去请教别人。别人岂不要烦死了?
合格的数据分析师,不仅要善于与数据打交道,更要善于理解物理对象和物理过程。
4月25日,奇安信发布2021年财报及2022年一季财报。根据财报,2021年奇安信营收58 09亿元,较上年增长39 6%,2022年一季度营收6 59亿元,同
业绩下滑、投资失效,九牧王退守老本行。4月25日晚,九牧王发布财务报告,2021年净利下滑47 25%;2022年一季度亏损5746万元。对于业绩的下滑
根据台积电的信息,3nm工艺今年下半年生产,不过明年才能大规模量产,2nm则要到2025年才能量产,这两代工艺的VIP客户都是Intel和苹果,他们
4月21日晚间,宁德时代发布2021年财报,数据显示,2021年营业收入约1303 56亿元,同比增加159 06%;归属于上市公司股东的净利润约159 31亿元
苹果要放弃mini系列是有原因的,因为用户都不是很买单。消费者数据研究机构CIRP的一份新报告展示了iPhone阵营各款手机的销售状况。iPhone
由点及面,从0到N。
人工智能已经从科幻小说走进了现实。如今,我们拥有自动驾驶汽车、智能虚拟助手、聊天机器人和手术机器人,以及其他智能机器。
整体来看,B站百大替换率逐年提升,知识、游戏、美食区赛道拥挤,竞争激烈。
市场之争,诡谲云涌,机不可失,失不再来。
商业化将会大量促进人工智能的市场规模,在2022年达到620亿美元。其中生成式AI将是重要的突破口。