-
當(dāng)前位置:首頁(yè) > 創(chuàng)意學(xué)院 > 技術(shù) > 專題列表 > 正文
數(shù)據(jù)分析的實(shí)例(數(shù)據(jù)分析的實(shí)例分析)
大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于數(shù)據(jù)分析的實(shí)例的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。
開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等
只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端
官網(wǎng):https://ai.de1919.com,如需咨詢相關(guān)業(yè)務(wù)請(qǐng)撥打175-8598-2043,或微信:1454722008
本文目錄:
一、大數(shù)據(jù)時(shí)代的案例分析
個(gè)案一
你開心他就買你焦慮他就拋
華爾街“德溫特資本市場(chǎng)”公司首席執(zhí)行官保羅·霍廷每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進(jìn)而判斷民眾情緒,再以“1”到“50”進(jìn)行打分。根據(jù)打分結(jié)果,霍廷再?zèng)Q定如何處理手中數(shù)以百萬(wàn)美元計(jì)的股票。
霍廷的判斷原則很簡(jiǎn)單:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。
這一招收效顯著——當(dāng)年第一季度,霍廷的公司獲得了7%的收益率。
個(gè)案二
國(guó)際商用機(jī)器公司(IBM)估測(cè),這些“數(shù)據(jù)”值錢的地方主要在于時(shí)效。對(duì)于片刻便能定輸贏的華爾街,這一時(shí)效至關(guān)重要。曾經(jīng),華爾街2%的企業(yè)搜集微博等平臺(tái)的“非正式”數(shù)據(jù);如今,接近半數(shù)企業(yè)采用了這種手段。
●“社會(huì)流動(dòng)”創(chuàng)業(yè)公司在“大數(shù)據(jù)”行業(yè)生機(jī)勃勃,和微博推特是合作伙伴。它分析數(shù)據(jù),告訴廣告商什么是正確的時(shí)間,誰(shuí)是正確的用戶,什么是應(yīng)該發(fā)表的正確內(nèi)容,備受廣告商熱愛(ài)。
●通過(guò)喬?!ふ材匪沟腛mniture(著名的網(wǎng)頁(yè)流量分析工具)公司,你可以知道有多少人訪問(wèn)你的網(wǎng)站,以及他們呆了多長(zhǎng)時(shí)間——這些數(shù)據(jù)對(duì)于任何企業(yè)來(lái)說(shuō)都至關(guān)重要。詹姆斯把公司賣掉,進(jìn)賬18億美元。
●微軟專家吉拉德喜歡把這些“大數(shù)據(jù)”結(jié)果可視化:他把客戶請(qǐng)到辦公室,將包含這些公司的數(shù)據(jù)圖譜展現(xiàn)出來(lái)——有些是普通的時(shí)間軸,有些像蒲公英,有些則是鋪滿整個(gè)畫面的泡泡,泡泡中顯示這些客戶的粉絲正在談?wù)撌裁丛掝}。
●“臉譜”數(shù)據(jù)分析師杰弗遜的工作就是搭建數(shù)據(jù)分析模型,弄清楚用戶點(diǎn)擊廣告的動(dòng)機(jī)和方式。
處理和分析工具
用于分析大數(shù)據(jù)的工具主要有開源與商用兩個(gè)生態(tài)圈。
開源大數(shù)據(jù)生態(tài)圈:
1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 漸次誕生,早期Hadoop生態(tài)圈逐步形成。
2、. Hypertable是另類。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。
3、NoSQL,membase、MongoDb
商用大數(shù)據(jù)生態(tài)圈:
1、一體機(jī)數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù):IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數(shù)據(jù)倉(cāng)庫(kù):TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數(shù)據(jù)集市:QlikView、 Tableau 、 以及國(guó)內(nèi)的Yonghong Data Mart 。
二、有關(guān)數(shù)據(jù)分析的7個(gè)方法論
距離2018Tableau峰會(huì)--上海站已經(jīng)過(guò)去10天了,好記性不如爛筆頭,干貨太多很想把所有內(nèi)容都記錄下來(lái),下面分享一篇《有關(guān)數(shù)據(jù)分析的7個(gè)方法》并結(jié)合我工作當(dāng)中的一些心得~
當(dāng)我們拿到海量的數(shù)據(jù)時(shí),可能會(huì)因?yàn)閿?shù)據(jù)體量過(guò)大而無(wú)從下手,于是我們就變成了數(shù)據(jù)的搬運(yùn)工,老板實(shí)際上要的是一瓢數(shù)據(jù),而我們給老板的是一池?cái)?shù)據(jù)讓老板在數(shù)據(jù)的池水中翱游。好的數(shù)據(jù)分析是讓數(shù)據(jù)說(shuō)話,那么我們?cè)鯓觼?lái)讓數(shù)據(jù)說(shuō)話呢,上干貨~~~7個(gè)分析方法
1. 數(shù)據(jù)隨時(shí)間變化 :某一個(gè)指標(biāo)在日期維度上的變化,找尋異常、趨勢(shì)
tips:結(jié)合已知的事件來(lái)看待它的影響,最大值和最小值、異常值,等拐點(diǎn)都可以成為挖掘故事的金礦,可以將跨度時(shí)間切割為年度、季度、月度等,比較正常和不正常值的差異來(lái)探究異常。
結(jié)合工作當(dāng)中的實(shí)例:上海一門店進(jìn)行促銷,老板一般會(huì)看截止某一時(shí)間節(jié)點(diǎn)的銷量,當(dāng)時(shí)我們?cè)诜治鲣N量的時(shí)候我們分析了按小時(shí)的銷量,發(fā)現(xiàn)門店的銷量會(huì)在早晚高峰出現(xiàn)銷量上升,但在晚高峰時(shí)突然出現(xiàn)了銷量的短時(shí)下跌,后來(lái)結(jié)合CCTV發(fā)現(xiàn)門店因?yàn)檫M(jìn)貨短時(shí)間人手不足等原因造成銷量下降。
2. 數(shù)據(jù)的放大與縮小
tips:集中關(guān)注某一特定區(qū)域或者范圍的數(shù)據(jù),將其與其余的數(shù)據(jù)做對(duì)比,可以先從整體入手并選擇感興趣的的數(shù)據(jù)區(qū)間,或者從某些有特征的數(shù)據(jù)點(diǎn)入手,查看數(shù)據(jù)是否存在異常
結(jié)合工作當(dāng)中的實(shí)例:每月在做月度分析的時(shí)候,比如涉及銷量完成率等這一個(gè)指標(biāo),我們一般會(huì)先看當(dāng)月的情況,根據(jù)預(yù)算分配,我們會(huì)再考察YTD的情況。
3. 數(shù)據(jù)的對(duì)比
tips:展示不同區(qū)域或者不同類別為什么會(huì)呈現(xiàn)不同的現(xiàn)象,通常是將一個(gè)群組/維度/項(xiàng)目與另外一個(gè)做對(duì)比
確認(rèn)對(duì)比的目的,比如證實(shí)或偽證自己的猜想,對(duì)比不一定需要產(chǎn)生于在同一層級(jí)之間,可以個(gè)體VS個(gè)體,VS整體/平均/中位數(shù)
結(jié)合工作當(dāng)中的實(shí)例:我們?cè)谀瓿醯臅r(shí)候,公司對(duì)虧損的門店進(jìn)行指標(biāo)分析和量化,我們選取了銷量-服務(wù)-效率等幾個(gè)維度進(jìn)行對(duì)比。對(duì)于具體門店到具體指標(biāo)時(shí),我們采用門店指標(biāo)與公司中位數(shù)進(jìn)行對(duì)比。
4. 數(shù)據(jù)的上鉆/下鉆
tips:在具有層級(jí)結(jié)構(gòu)的數(shù)據(jù)中探索某一維度是如何影響全局的,可以有自下而上或者自上而下
當(dāng)選擇到底是自下而上還是自上而下時(shí),考慮你的聽眾更熟悉的背景,如果他們是只處理工作流程的某一具體環(huán)節(jié)的同事,那么選擇自下而上;如果他們是對(duì)全局有宏觀把控但是你需要他們關(guān)注某些具體細(xì)節(jié)的領(lǐng)導(dǎo),那么選擇自上而下。
結(jié)合工作當(dāng)中的實(shí)例:每月在做月度分析的時(shí)候,我們一般都會(huì)先關(guān)注公司整體銷售數(shù)據(jù),具體銷量數(shù)字和完成預(yù)算情況,此外還會(huì)關(guān)注重點(diǎn)銷售區(qū)域的銷售數(shù)據(jù),對(duì)于預(yù)算完成較差的區(qū)域,我們進(jìn)一步再關(guān)注具體門店的情況。
5.突出值/異常值
tips:發(fā)現(xiàn)表現(xiàn)異常的時(shí)間段/個(gè)體,通過(guò)散點(diǎn)圖或者盒須圖進(jìn)行呈現(xiàn)。異常值越突出,故事效果越好,越容易給觀眾以深刻的印象,用不同的顏色或者注釋標(biāo)記出異常值以達(dá)到突出的效果。結(jié)合其他的敘述類型來(lái)挖掘出異常值背后的故事。
結(jié)合工作當(dāng)中的實(shí)例:筆者所在的行業(yè)為零售行業(yè),每天的零售銷售數(shù)據(jù)很多,記得一次月度匯報(bào),銷量Top5的門店竟然出現(xiàn)在利潤(rùn)后十名的表單中,當(dāng)時(shí)細(xì)究原因是財(cái)務(wù)在賬務(wù)處理時(shí)將利潤(rùn)進(jìn)行了分割。此外,對(duì)于異常數(shù)據(jù)筆者發(fā)現(xiàn)很多情況是由于底層數(shù)據(jù)未經(jīng)處理而導(dǎo)致數(shù)據(jù)不干凈。
6. 數(shù)據(jù)的交叉點(diǎn) :多條趨勢(shì)線的相互交叉,或者某一個(gè)體超越了另外一個(gè)個(gè)體的時(shí)間節(jié)點(diǎn)
tips:通常代表著某種轉(zhuǎn)折或某個(gè)標(biāo)志性的時(shí)間,展示時(shí)將交叉點(diǎn)之前時(shí)段的數(shù)據(jù)帶入到故事當(dāng)中可以讓聽眾對(duì)交叉點(diǎn)產(chǎn)生時(shí)的背景有大致了解,同樣可以結(jié)合其他的故事類型一同講述。
結(jié)合工作當(dāng)中的實(shí)例:我們?cè)谧鰯?shù)據(jù)分析時(shí),我們會(huì)對(duì)比同期銷量趨勢(shì),對(duì)于本年度銷量大于上一年度銷量的月份,我們會(huì)具體去看上漲的原因,具體是因?yàn)槟骋粻I(yíng)銷政策、競(jìng)爭(zhēng)對(duì)手等原因。
7.剖析原因:
tips:在關(guān)注某一指標(biāo)時(shí),分析哪些因素會(huì)影響該指標(biāo)的表現(xiàn),分析兩個(gè)角度之間的關(guān)系。
一個(gè)普遍應(yīng)用的結(jié)構(gòu)叫做“Goldilocks", 先展示一個(gè)并非特別相關(guān)的因素,然后再講述特別恰當(dāng)?shù)挠绊懸蜃?。如果有一個(gè)大家普遍認(rèn)為很重要的因素但事實(shí)上并沒(méi)有想象中那么重要,說(shuō)明后面還有一個(gè)更恰當(dāng)?shù)囊蛩亍?/p>
結(jié)合工作當(dāng)中的實(shí)例:我們?cè)诜治鲩T店虧損情況的時(shí)候,通常會(huì)先找到幾個(gè)可能影響利潤(rùn)的幾個(gè)指標(biāo),然后進(jìn)行參考環(huán)比數(shù)據(jù)進(jìn)行解釋,當(dāng)我們用現(xiàn)有的幾個(gè)指標(biāo)不能解釋利潤(rùn)變化的時(shí)候,說(shuō)明我們查看的影響因素還不夠全面或者門店周圍環(huán)境發(fā)生了重大改變。
三、《利用Python進(jìn)行數(shù)據(jù)分析》——案例1從Bitly獲取數(shù)據(jù)
這個(gè)案例主要目的是轉(zhuǎn)換json類型的數(shù)據(jù),利用python和pandas方法進(jìn)行計(jì)數(shù)。
step1:獲取數(shù)據(jù)
將json格式數(shù)據(jù)轉(zhuǎn)化成python對(duì)象
step2純python時(shí)區(qū)計(jì)數(shù)
1.獲取時(shí)區(qū)+計(jì)數(shù)
2.對(duì)以上字典形式進(jìn)行計(jì)數(shù)
3.更更簡(jiǎn)單的方法,直接用python標(biāo)準(zhǔn)庫(kù)的collections.Counters類
從僅獲取時(shí)區(qū)后開始
step3 使用pandas計(jì)數(shù)
step4 可視化 seaborn
5.補(bǔ)充一些語(yǔ)句
四、R數(shù)據(jù)分析:混合效應(yīng)模型實(shí)例
上篇文章有寫多水平模型,這篇文章接著寫,肯定好多人沒(méi)搞懂,因?yàn)槲易约阂裁悦院?,哈哈,很尷尬?/p>
傳統(tǒng)的回歸需要滿足的假設(shè)之一就是測(cè)量之間是相互獨(dú)立的,然而有一種實(shí)驗(yàn)設(shè)計(jì)叫做重復(fù)測(cè)量設(shè)計(jì),或者叫做被試內(nèi)設(shè)計(jì) within-subjects design,這么一種設(shè)計(jì)方法中一個(gè)受試對(duì)象會(huì)被測(cè)量多次,因?yàn)楹芏嗟臏y(cè)量都是來(lái)自同一個(gè)人所以這些測(cè)量我們有理由相信他們之間是不獨(dú)立的。
那么就不能使用傳統(tǒng)的回歸,而混合效應(yīng)就可以將不同水平(測(cè)量水平和個(gè)體水平)的變異都系統(tǒng)地分離開。
什么時(shí)候使用混合效應(yīng)模型呢? ------Studies that obtain multiple measurements over time (longitudinal, time-series) or multiple trials per participant (within subjects) lend themselves well to mixed model analyses.
寫個(gè)例子給大家一個(gè)更加直觀的感覺(jué),比如我們想知道披薩的消費(fèi)量和心情有沒(méi)有關(guān)系 (是不是有關(guān)系,關(guān)系是不是穩(wěn)定) ,我們招募一群受試者,讓他們報(bào)告他們的披薩消費(fèi)量和他們的心情,報(bào)告15個(gè)時(shí)間點(diǎn)。
Hypothetical sample size, n = 30
DV : Mood rating (scale)
IV1 : Pizza consumption
IV2 : Time points (Weeks, 1-10)
此例就是一個(gè)被試內(nèi)設(shè)計(jì),一個(gè)人測(cè)了15次,可怕。
接下來(lái)我們對(duì)這個(gè)例子進(jìn)行分析:
Fixed effects are, essentially, your predictor variables. This is the effect you are interested in after accounting for random variability (hence, fixed).
固定效應(yīng)就是你感興趣的預(yù)測(cè)變量, 在我舉得這個(gè)例子中就是披薩消費(fèi)量和時(shí)間,因?yàn)槲覀兏信d趣
披薩消費(fèi)量對(duì)心情的影響和影響隨時(shí)間的變化情況。
Random effects are best defined as noise in your data. These are effects that arise from uncontrollable variability within the sample. Subject level variability is often a random effect.
隨機(jī)效應(yīng)就是噪聲,通常我們研究低水平的變量,高水平統(tǒng)統(tǒng)為噪聲, 此例中,我們研究消費(fèi)量和心情,可以把這兩個(gè)變量看作是嵌套在人的水平上的,那么人與人之間的差異就是隨機(jī)效應(yīng)。
Intercepts : The baseline relationship between IV & DV. Fixed effects are plotted as intercepts to reflect the baseline level of your DV.
截距就是基線時(shí)自變量和因變量的關(guān)系。 此例中隨機(jī)截距就是披薩消費(fèi)量基線時(shí)人與人之間不同,而固定截距就是基線時(shí)所以人的披薩消費(fèi)量相同。
Slope : The strength of the relationship between IV & DV (controlling for randomness), which represent random effects. You should expect to see differences in the slopes of your random factors.
斜率就是自變量和因變量的關(guān)系強(qiáng)度。 此例中,隨機(jī)斜率就是人與人之間披薩消費(fèi)量和心情的關(guān)系不一樣,而固定斜率就是人與人之間披薩消費(fèi)量和心情的關(guān)系一樣。
特別注意,截距和斜率有可能有相關(guān)性。就是不同基線的個(gè)體披薩消費(fèi)量和心情的關(guān)系不一樣。
通常我們?cè)谀P椭薪ⅲ瑢?duì)于隨機(jī)效應(yīng)的表述語(yǔ)法如上,1代表隨機(jī)斜率,0代表固定斜率
從上面的結(jié)構(gòu)中我們可以知道,其實(shí)隨機(jī)效應(yīng)有很多,我們到底選擇哪種隨機(jī)效應(yīng)最好呢?
這就需要我們進(jìn)行模型比較了:
我們可以通過(guò)模型的AIC,BIC和卡方來(lái)進(jìn)行模型的比較,上圖的結(jié)果中我們可以看到模型二相對(duì)模型三并沒(méi)有提高擬合,所以模型二就是最佳模型, (1 + pizza +time|subject)就是最佳隨機(jī)效應(yīng)結(jié)構(gòu),意思就是不同的個(gè)體他們的極限披薩消費(fèi)量是不同的,而且在披薩消費(fèi)量影響心情時(shí)的斜率也是不同的。
上一部分我們找到了模型最好的隨機(jī)效應(yīng)結(jié)構(gòu),接下來(lái)我們就給模型加入固定效應(yīng):
跑3個(gè)模型,分別加入固定效應(yīng)和固定效應(yīng)的交互之后我們開始檢驗(yàn)到底哪一個(gè)模型好:
通過(guò)p值我們發(fā)現(xiàn)模型二其實(shí)是最好的模型,所以我們可以得到結(jié)論: 控制隨機(jī)效應(yīng)后披薩的消費(fèi)量越高,心情越好,但時(shí)間會(huì)減弱這種效應(yīng)。時(shí)間和披薩的消費(fèi)量之間并沒(méi)有交互作用。
如果你是一個(gè)大學(xué)本科生或研究生,如果你正在因?yàn)槟愕慕y(tǒng)計(jì)作業(yè)、數(shù)據(jù)分析、論文、報(bào)告、考試等發(fā)愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何問(wèn)題,都可以聯(lián)系我。因?yàn)槲铱梢越o您提供最好的,最詳細(xì)和耐心的數(shù)據(jù)分析服務(wù)。
如果你對(duì)Z檢驗(yàn),t檢驗(yàn),方差分析,多元方差分析,回歸,卡方檢驗(yàn),相關(guān),多水平模型,結(jié)構(gòu)方程模型,中介調(diào)節(jié)等等統(tǒng)計(jì)技巧有任何問(wèn)題,請(qǐng)私信我,獲取最詳細(xì)和耐心的指導(dǎo)。
If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.
Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??
Then Contact Me. I will solve your Problem...
加油吧,打工人!
(站外鏈接發(fā)不了,請(qǐng)關(guān)注后私信回復(fù)“數(shù)據(jù)鏈接”獲取本號(hào)所有使用數(shù)據(jù))
往期內(nèi)容:
從“我丑到我自己了”說(shuō)起——混合效應(yīng)模型續(xù)
重復(fù)測(cè)量數(shù)據(jù)分析系列:混合效應(yīng)模型基礎(chǔ)
R數(shù)據(jù)分析:多水平模型詳細(xì)說(shuō)明
以上就是關(guān)于數(shù)據(jù)分析的實(shí)例相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。
推薦閱讀:
永久擦除固態(tài)硬盤數(shù)據(jù)(永久擦除固態(tài)硬盤數(shù)據(jù)會(huì)怎么樣)
景觀設(shè)計(jì)大學(xué)(景觀設(shè)計(jì)大學(xué)排名)
臨滄立體綠化景觀設(shè)計(jì)招標(biāo)(臨滄立體綠化景觀設(shè)計(jì)招標(biāo)信息)