本站(zhàn)即日(rì)啓用新域名www.zlwl.vip

正雷網絡技術(shù)工(gōng)作(zuò)室

ARTICLE文章(zhāng)資訊

網站(zhàn)那些事(shì)兒?
Web Things...?

大(dà)數據除了預測還(hái)能幹啥

今天随便聊聊一個Susan在2017年(nián)發在Science上文章(zhāng):Beyond prediction: Using big data for policy problems。Susan Athey是美國(guó)著名的經濟學家,現在是斯坦福大(dà)學商學院的教授。在平台和大(dà)數據方面的研究方面,她大(dà)概是經濟學界林朝英這樣的角色。值得(de)一提的是她老公Guido Imbens在計(jì)量領域的名聲更加蓋過了Susan在商學領域的名聲,大(dà)概算是王重陽。

大(dà)數據除了預測還(hái)能幹啥?

 

之所以提到這篇論文是因爲裡(lǐ)面提到了一些非常有趣的關于大(dà)數據未來(lái)在産業經濟領域發展方向的問(wèn)題。衆所周知大(dà)數據和機器學習技術(shù)的出現大(dà)幅提高了我們運用數據來(lái)預測的能力,比如(rú)說(shuō)一個和我們生(shēng)活最息息相(xiàng)關的方面就(jiù)是許多平台軟件(jiàn)會通過大(dà)數據學習來(lái)定向推送内容(每個人(rén)打開百度搜索相(xiàng)同的關鍵詞,得(de)到的結果和排序可(kě)能都(dōu)是完全不同的)。

那麽對于社會科(kē)學工(gōng)作(zuò)者而言,一個自(zì)然而然的問(wèn)題就(jiù)是:我們未來(lái)的發展方向有哪些是可(kě)以和大(dà)數據方法相(xiàng)契合的?換而言之,社會科(kē)學工(gōng)作(zuò)者,或者企業領導者是不是可(kě)以直接拿來(lái)主義,運用大(dà)數據來(lái)指定相(xiàng)關政策,優化社會福利或者公司運營呢(ne)?

大(dà)數據除了預測還(hái)能幹啥?

 

蘇三(Susan)在她的文章(zhāng)裡(lǐ)面提到了現實生(shēng)活中大(dà)數據應用的三個方面:

  • 醫療

醫療方面一個使用大(dà)數據預測的例子是:醫生(shēng)希望通過大(dà)數據來(lái)預測符合哪些條件(jiàn)的病人(rén)更适合來(lái)做髋關節置換手術(shù)。所以他(tā)們使用機器學習來(lái)預測哪些手術(shù)候選人(rén)可(kě)能在手術(shù)後的一年(nián)之内死亡,通過手術(shù)的風(fēng)險率來(lái)确定病人(rén)是否适合做這樣的置換手術(shù)。他(tā)們的說(shuō)法非常具有經濟學意義:一個人(rén)隻有通過手術(shù)能夠活得(de)很長的時候,做手術(shù)才更有意義;如(rú)果手術(shù)之後不久就(jiù)死了,還(hái)要爲手術(shù)承受額外的痛苦,那可(kě)能隻是一種金錢上的浪費和徒勞。

其實這是一個非常具有現實意義的問(wèn)題,比如(rú)說(shuō)面對流行病我們是不是也可(kě)以使用大(dà)數據來(lái)對不同程度的感染者采取不同的治療手段,從(cóng)而使得(de)有限資源可(kě)以最合理(lǐ)化的分(fēn)配。

然而一個重要的問(wèn)題在于,我們是不是可(kě)以簡單地通過這樣的風(fēng)險分(fēn)類的方式來(lái)決定手術(shù)的優先性?同時簡單基于關聯性的機器學習結果也并無法回答更深層的問(wèn)題,比如(rú)說(shuō)患者之間可(kě)能存在我們看(kàn)不到的異質性問(wèn)題。就(jiù)目前而言我們可(kě)能并無法通過模型的預測結果來(lái)直接判斷是否某些病人(rén)可(kě)能比另一些病人(rén)更有可(kě)能引發并發症。

回到這次的肺炎事(shì)件(jiàn)來(lái)看(kàn),我們如(rú)果僅僅從(cóng)個體(tǐ)治療效果角度進行判斷通過大(dà)數據建立模型來(lái)決定有效的治療手段和方案,會不會忽略了個體(tǐ)的傳播性?比如(rú)說(shuō)有一些病患可(kě)能從(cóng)個體(tǐ)角度上來(lái)說(shuō)治療的優先級并不是最高,因爲他(tā)們身(shēn)強體(tǐ)壯。但(dàn)是可(kě)能這些病患恰好是極具傳播力的人(rén),反而應該被優先處理(lǐ)。更本質地,到底這種根據存活率來(lái)分(fēn)配稀缺資源的方式是不是就(jiù)是我們人(rén)類社會所追求的最優方式?

  • 城(chéng)市發展

公共建設和城(chéng)市發展是大(dà)數據方法運用的另一個重要維度。比如(rú)說(shuō)一個很現實的問(wèn)題是如(rú)果我們要在城(chéng)市裡(lǐ)面安排警察,監察員(yuán),那麽根據現有的人(rén)力物力,我們怎麽樣分(fēn)配調度才是最優的。這是一個很現實的問(wèn)題最新的研究成果就(jiù)有顯示,如(rú)果在波士頓地區的參觀重新按照(zhào)大(dà)數據結果安排衛生(shēng)監察員(yuán)的話(huà),可(kě)能會相(xiàng)比現有的分(fēn)配方式提高30~50%的監察效率。

蘇三提出這看(kàn)起來(lái)很美,但(dàn)是相(xiàng)對而言我們也要知道機器學習的方法在預測效率可(kě)能會提高30~50%的同時,也忽略了兩個重要的因素。要使得(de)效率提高成立的前提條件(jiàn)是:

  1. 人(rén)類的行爲不會因爲資源的重新分(fēn)配而變動;;
  2. 即便這樣是真的,重新置換分(fēn)配資源的成本也必須低于收益,不然的話(huà)政府将會缺少動力去(qù)優化現有系統。

大(dà)數據經常也會被用于計(jì)算城(chéng)市的犯罪率,從(cóng)而合理(lǐ)規劃警員(yuán)的配置和分(fēn)布。可(kě)是另一方面我們需要擔心的是一旦這種警員(yuán)重新配置分(fēn)布之後,很顯然也會反過來(lái)影(yǐng)響到潛在犯案者的行爲以及犯案地點的選擇,最後可(kě)能會使得(de)重新分(fēn)配警力隻是在做無用功。當然這一切因爲從(cóng)來(lái)沒有發生(shēng)過,自(zì)然而然也不可(kě)能直接被“大(dà)數據”所預測。

  • 企業決策

最後要說(shuō)的例子是企業的決策,特别是平台類的企業。2015年(nián)的時候Blake, Tadelis, Nosko有一篇著名的論文,發在了經濟學的頂級刊物Econometrica上。經濟學家幫助Ebay做了一個研究,主要是看(kàn)Ebay通過付費搜索廣告來(lái)吸引消費者這樣的策略到底是否實際有效。之所以做這樣的研究是因爲在經濟學家介入之前,Ebay自(zì)己的團隊已經做過這樣的研究,搜索點擊和購(gòu)買行爲本身(shēn)相(xiàng)互關聯。Ebay通過機器學習的方法得(de)到了非常驚人(rén)的結果,他(tā)們發現通過投資搜索廣告獲得(de)的點擊繼而造成的銷售利潤大(dà)概是成本的1400%!

這樣的結果太過驚人(rén),以至于Ebay自(zì)己都(dōu)覺得(de)不太可(kě)信,因爲如(rú)果是真的話(huà),那豈不是意味着隻要拼命投資廣告讓更多的人(rén)通過廣告點擊進入Ebay就(jiù)可(kě)以發大(dà)财?那運營企業也太容易了一些了吧(ba)。

經濟學家們發現事(shì)實上造成這樣的機器學習結果的重要原因是大(dà)部分(fēn)點擊廣告人(rén)的确會在點擊廣告之後購(gòu)買Ebay的産品,但(dàn)是這可(kě)能本身(shēn)就(jiù)是一種因果錯連。主要并不是因爲點擊所以才想買,而是想買所以才會點擊。在矯正了這樣的偏誤之後,他(tā)們重新估計(jì)了廣告投入帶來(lái)的收益,發現事(shì)實上廣告投入帶來(lái)的平均回報是-69%而不是1400%。

大(dà)數據除了預測還(hái)能幹啥?

 

大(dà)數據的發展的确很大(dà)程度上拓寬了人(rén)文社科(kē)領域的研究界限,但(dàn)是作(zuò)爲方法的使用者來(lái)說(shuō),我們也更應當對于新方法的使用抱有謹慎的态度。不但(dàn)要知其然,也要知其所以然,正确解讀(dú)大(dà)數據預測的結果事(shì)實上深度依靠對于數據本背後産生(shēng)數據的人(rén)的行爲決策的深入了解,以及方法本身(shēn)背後隐含的假設條件(jiàn)。

正如(rú)Susan的丈夫重陽真人(rén)Imbens所說(shuō):除了随機試驗以外,所有的因果判定都(dōu)是基于分(fēn)析者對于預測模型的合理(lǐ)假設才能成立。

标簽: 大(dà)數據
  • 相(xiàng)關内容: