亚洲一区二区三区综合|国产九九免费视频网站|免费高清特级毛片AAA|国产自愉怕一区二区三区|国产三级国产精品国产专区|亚洲欧美一区二区三区导航|国产熟女视频一区二区三区|一本一本久久A久久综合精品蜜桃

招高級人才,上覽優(yōu)獵頭! | 服務(wù)熱線:0755-86153389
覽優(yōu)獵頭
個人服務(wù)
企業(yè)服務(wù)

數(shù)據(jù)科學(xué)家/統(tǒng)計學(xué)家應(yīng)該養(yǎng)成哪些好習(xí)慣?

作者:鄒昕
鏈接:https://www.zhihu.com/question/26894983/answer/130559382
來源:知乎
著作權(quán)歸作者所有,轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)。

做過一點統(tǒng)計模型,做過一點數(shù)據(jù)分析,現(xiàn)在工作名字叫數(shù)據(jù)科學(xué)家,厚著臉皮拋磚引玉,聊聊數(shù)據(jù)分析中需要養(yǎng)成的良好習(xí)慣。

1. 了解數(shù)據(jù)分析的目的/需求

做數(shù)據(jù)分析的新人可能都遇到過,辛辛苦苦花了幾個小時做出來的結(jié)果,跟客戶 / 合作伙伴 / PM / 老板要的不是一個東西,運氣好的話回去修補一下,花個半小時之類的,運氣不好的話直接推倒重來,搞不好又得晚上加班了。

比如說下午六點,正準備收拾東西回家,PM 跟你說想看知乎用戶的活躍度,跟數(shù)據(jù)分析師提出需求說,我們來看看大家使用時長吧。那么問題來了,是看平均呢還是看中位數(shù)?是看某一種客戶端比如移動端嗎,或者是想每種客戶端都分開來看?要根據(jù)用戶的注冊時間來做下劃分嗎?是否想看具體某個城市的?

甚至再退后一步,PM 想看這個干什么?僅僅是好奇,還是現(xiàn)在有個很重要的決定需要以此為基礎(chǔ)?數(shù)據(jù)分析師需要以此來決定這件事情的優(yōu)先級,是可以推回去的呢?還是說需要立馬動手做,下班之前就需要給結(jié)果的。

二十歲的人生,三十年的工作經(jīng)驗,都是加班鬧的。


來源:s3.amazonaws.com/lowres

2. 用常識來驗證結(jié)果

雖然說數(shù)據(jù)說話,但是前提是數(shù)據(jù)來源、分析過程、解讀等都是正確的。如何保證結(jié)果的正確性,最基本的一點就是不同方面來快速驗證一下數(shù)量級。

比如說 PM 想看知乎用戶使用 Live 的數(shù)量,發(fā)現(xiàn)迄今為止有 50 萬 iPhone 用戶點擊了 Live 的頁面,2 萬安卓用戶點擊了 Live 的頁面。同時還知道知乎有五百萬 iPhone 日活,而安卓的日活是三千萬,由此可見 iPhone 用戶就是舍得花錢啊,同時安卓用戶那里還有很大的機會。然后簡單比較一下可以發(fā)現(xiàn),二者的參與率差了 150 倍,常識判斷這差得有點太大了,難以解釋。再仔細研究一下數(shù)據(jù)來源發(fā)現(xiàn),原來安卓客戶端的數(shù)據(jù)記錄是取樣 1% 的,所以直接看只有 2 萬安卓用戶點擊,但實際上應(yīng)該在兩百萬左右,這樣一來 iPhone 和安卓的差別就比較合理了。

時刻謹記常識
來源:almostmakessense.com/?

3. 時刻注意數(shù)據(jù)分析的結(jié)果是否具有誤導(dǎo)性

經(jīng)常說的一句話叫“數(shù)據(jù)會說謊”。然后數(shù)據(jù)自身是不會說謊的,而是取決于如何做數(shù)據(jù)分析、如何展示結(jié)果。有時候是數(shù)據(jù)分析無意中引入了誤導(dǎo)性元素,比如說不合理的坐標軸,有時候是刻意引入某些誤導(dǎo)性元素,以達到特別的目的,這些都是應(yīng)該盡量避免的。

比如說下圖同樣的增幅,因為用了不同的 y 軸,左右看起來就完全不一樣了。如果聽眾沒有仔細看坐標軸而僅僅看圖形的話,妥妥的就被忽悠了(來源:Look out for these lies with charts)。

此外還有一些數(shù)據(jù)分析中常見的錯誤,可以參考下面回答:
數(shù)據(jù)分析中會常犯哪些錯誤,如何解決? - 鄒昕的回答

4. 想想你的聽眾是誰

數(shù)據(jù)很多時候不僅僅是一個人埋頭苦干,還需要跟人交流,比如說跟合作伙伴的溝通,跟老板的溝通,跟其他組員的溝通,跟不同部門的人溝通。針對不同的聽眾,相應(yīng)的需要強調(diào)不同方面。

比如說跟合作伙伴溝通的時候,可能他們知道你做這個的目的是什么,可能會對結(jié)果更感興趣,以及由數(shù)據(jù)提供了什么建議或者決定。至于具體數(shù)據(jù)來源或者分析方法之類對他們來說不是那么重要,大多數(shù)時候只要確保數(shù)據(jù)分析師知道自己在做什么就可以了。

跟老板溝通結(jié)果的時候,大部分時候可能他們知道你做的大致方向,對分析思路的方法基本一點就通,細節(jié)方面可能無法面面俱到。

而跟不同部門的人溝通的時候,分享數(shù)據(jù)分析的結(jié)果之前,最好還能講講這件事情的目的,一些背景,大方向是什么諸如此類。

img.zcool.cn/community/

5. 動手之前先看看這件事情是不是已經(jīng)有人做過了

這點在大一點的公司尤其明顯,PM 或者老板提出一個需求,或者數(shù)據(jù)分析師自己對某一個問題感興趣,然后想也沒想,就 SQL 寫得飛快跑了起來。很快一天過去了,產(chǎn)出了一大堆數(shù)據(jù)和報表,被自己的高效感動了,收拾書包回家。

晚上打開電腦,突然不知道哪根經(jīng)搭錯了,想白天做的這個事情會不會已經(jīng)有人做過了呢?于是內(nèi)網(wǎng)搜了一下,豁然發(fā)現(xiàn)某個角落里有一堆早就做好的 pipeline,數(shù)據(jù)、報表一應(yīng)俱全,90% 想要的結(jié)果都在里面了,真是不知道該哭還是想笑。

數(shù)據(jù)分析很多時候是不需要重新造輪子的。



6. 數(shù)據(jù)大小很重要又不重要

幾年前,有個大數(shù)據(jù)的笑話,Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it. 看不懂的請 google translate.

幾年過去了,teenage 應(yīng)該也長大成人不再是 teenage sex 了,很多時候大家是真的在做大數(shù)據(jù)了。雖然 size matters,但是數(shù)據(jù)分析師更應(yīng)該關(guān)注數(shù)據(jù)能提供什么價值。

本來想放個 size matters 的圖,然后 google 了一下之后,出來的都是辦公室不宜的,所以你們自己腦補吧。

7. So what?

描述性的數(shù)據(jù)據(jù)分析很重要,是了解用戶,了解產(chǎn)品,感受大方向的基礎(chǔ)。比如針對知乎活躍用戶做個畫像,發(fā)現(xiàn) 55% 男性,40% 女性(別問我剩下 5% 怎么回事),70% 年薪百萬,80% 985/211,90% 健身,100% 都是活躍用戶(廢話),如此種種。這么一大堆圖表、信息堆起來之后,需要仔細想想這到底說明了什么問題?對改進產(chǎn)品有什么啟示,比如說開個健身爆照專欄輪帶逛?如果僅僅是停留在描述性數(shù)據(jù)分析階段的話,那么就無法發(fā)揮數(shù)據(jù)的最大作用,從數(shù)據(jù)的角度引導(dǎo)產(chǎn)品的改進。

ps. 引導(dǎo)產(chǎn)品改進可以是多個方面的,數(shù)據(jù)引導(dǎo)僅僅是其中的一部分。

8. 保持好奇心
數(shù)據(jù)分析不是一個新的學(xué)科,但是工具、內(nèi)容、應(yīng)用方向等一直在不斷改變,所以保持好奇心,持續(xù)學(xué)習(xí)進步,探索新領(lǐng)域?qū)﹂L期發(fā)展是最重要的一點,(個人認為)沒有之一。

 

 

粵公網(wǎng)安備 44030502004557號