等离子体科技有限公司

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

江晓原: “数据挖掘”: 天神照旧妖怪?

发布日期:2025-12-14 14:40    点击次数:139

比特币收益与制造业和金属采矿业的股票收益呈负关系……

特朗普在推特文章中使用“with”这个单词四天后,中国茶叶分销商UrbanTea的股价会着落……

特朗普在推特文章中使用“president”这个单词与两天后股价的要领普尔500指数之间存在0.43的关系性……

看到这些新发现的“规则”或“格式”,你震不颤动?惊不惊喜?如你所料,这么的发现离不开“大数据”和“AI算法”,卓越是连年一个很是细腻的法子“数据挖掘”。

《不被信任的科学——大数据、东说念主工智能与信息骗取》,[好意思]加里·史小姐著,孙强译,上海科技耕作出书社2025年出书

一个经济学家眼中的“数据挖掘”

“数据挖掘”又被称为“机器学习”或“常识发现”——这些名词在中语语境中皆是“好词”,充满了高技术和蜕变意味,细目不具有任何批判色调。所谓“数据挖掘”,用大口语来说,等于在海量的“大数据”中,借助各式“AI算法”,尝试“发现”或取得各式千般的数据关系。

加里·史小姐(GarySmith)是好意思国经济学家、统计学家,耶鲁大学经济学博士,在波莫纳学院当经济学素养。靠近如今的“大数据”和“AI算法”波浪,史小姐看来是一个赫然的保守派。2023年他出书了《不被信任的科学——大数据、东说念主工智能与信息骗取》一书,基本论点是:“虚假信息”“数据歪曲”“数据挖掘”这三件事情,正在极地面损伤科学的信誉,使得科学不再被公众所信任。其中尤以“数据挖掘”让他疾恶如仇,在书中花了很大的篇幅进行袭击(主要衔尾在第三部分,即第8—10章)。

史小姐在书中所举的各式“数据挖掘”的例子,看上去天然是曲常极端的。他将这些“数据挖掘”的发现称为“愚东说念主金”(一种有着黄金晴朗的铜),认为这些数据关系不仅很可能是毫无真谛的,甚而还会具有骗取性。但问题在于,“极端”和“不极端”的规模在那里呢?大致说,在被“挖掘”出来的各式关系中,何如判断一种数据关系是“极端”的,而另一种是“不极端”的呢?

史小姐在对“数据挖掘”的界说中,似乎也战役到了这个问题:“在不受表面影响的数据中寻找潜在的格式,这被称为数据挖掘,即洽商东说念主员在数据中深远挖掘,况兼无法先见他们会发现什么。”他又暗示:“传统的数据库查询需要一定进度的假定,但挖掘大数据会揭示出咱们甚而不知说念要去寻找的关系和格式。”他还援用《连线》杂志上题为“大数据与表面家的衰一火”的文章说:“算法寻找格式,而假定从数据中得出。分析师甚而无用再费神提议假定。”

一言以蔽之,史小姐的道理归纳起来等于:传统的数据料理有表面教导和预期,而“数据挖掘”则是信马游缰,乱挖一气,但愿能挖出点出东说念主意想的东西来(比如本文起头所举的那些例子就很典型)。而史小姐在书中绝不夷犹地断言:“由数据挖掘所发现的大宽敞格式皆是瞎掰八说念。”

从传统的数据料理到“数据挖掘”

史小姐是一个经济学家,我测度他可能并未吸收过理工科的学术训导。其实“数据挖掘”到底是天神照旧妖怪,也偶然像史小姐所假想的那样,因为它和传统的数据料理之间并无不成越过的范畴,很厚情况下它等于平时的科学洽商技能。

我本科学天体物理专科建立,曾在中国科学院上海天文台责任过15年。天体裁界有一种器具称为“星历表”,等于用现代天膂力学法子,计较出太阳系中各大行星、矮行星等天体每隔一段时间(这个断绝称为“步长”)的天球坐标(黄经和黄纬)。用今天的眼神来看,咱们十足不错将星历表算作一种“大数据”,咱们不错使用合乎的计较机语言(等于“AI算法”),在其中“挖掘”出各式千般的截止。例如,咱们不错求出牧野之战那天(公元前1044年1月9日)朝晨时木星在天球上的位置,也不错找出其他各式千般的数据关系——如若咱们合计这种关系有真谛的话。

换句话说,从平时合理的数据分析料理,到史小姐所袭击的“数据挖掘”,中间有着访佛“连续谱”的过度区域。数据料理工夫在互联网和东说念主工智能出现之前很早就存在了。史小姐所疾恶如仇的,其实应该是当下对“数据挖掘”的奢靡。

至于“数据挖掘”为何会在当下被奢靡,那照实与大数据和AI联系。我进天文台责任是20世纪80年代,当时的星历表照旧一种很是厚的纸质大书,内部用极小的字密密匝匝印着数据,如若要在内部“挖掘”,只可用肉眼耐性搜寻数据,找出数据后还要用内插法料理过,才调够使用,在这种情况下,奢靡是不成能发生的。而参加1990年代,咱们启动使用NASA喷气鼓舞本质室的星历表数字光盘,这时选拔“AI算法”从星历表中“挖掘”数据一经成为可能,不外咱们天然从未起过“奢靡”的念头。

这是一幅乖僻的图景吗?

仅看《不被信任的科学》这么的书名,很容易让东说念主误以为是“科学常识社会学”(SSK)方面的文章,其实却并非如斯。史小姐天然莫得从科学玄学的角度去筹划问题(也许他不具备这方面的配景),但他对“大数据”和“AI算法”各式缺点的蛮横批判,至少在客不雅效果上照旧很有启发真谛的。

比如书中第一部分筹划“虚假信息”,这等于咱们频繁真谛上的所指:给出一些裕如“科学”色调的倡导和说法,方向是对公众进行骗取。作家举的例子是当下炙手可热的区块链和比特币。史小姐认为好多东说念主根柢不知说念区块链是什么,只合计它很是“科学”,很是肥大上,那和它绑在一说念的比特币必定前景庞大。而他认为“比特币的内在价值为零”,他将比特币和金融史上的郁金香炒作和南海股票骗局视为同类——刺眼这是本书作家的看法,他被视为经济学家。不外咱们天然不在这里筹划比特币的成败,如若比特币真是前景庞大,那等于史小姐例如欠妥,但并不影响他对“虚假信息”的批判。

书中第二部分揭露“数据歪曲”,这亦然中国读者所熟识的,指对数据进行谬诬告读,看起来很“科学”,而且“用数据语言”,显得愈加“有理有据”,因而更具骗取性。史小姐举的例子照旧比特币——看来他是真是和比特币有仇了。天然他对“数据歪曲”的批判,从学理上说仍然开拓。

在本书的终末两个部分,史小姐发起了对东说念主工智能和现代某些社会学洽商的密集批判。他对东说念主工智能业界迄今为止所声称的各式证据,宽敞评价很低。他还举出了各式他认为是乖僻离奇的“学术洽商”例证,比如女性向男性乞助时是披着头发回是扎着马尾更容易获胜之类(其实这个例子偶然乖僻)。

史小姐用一种相对来说相比朴素的念念路,指出了一个有点玄幻的雅瞻念——科学工夫的最新截止(互联网、大数据、东说念主工智能等等),正在损伤科学工夫之前积蓄起来的声誉,使得公众失去对科学的信任:“科学家创造了大数据和分析大数据的器具,但两者皆为科学家制造了更多让他们怨恨和损伤他们信誉的契机。”





Powered by 等离子体科技有限公司 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2025