網易郵箱數倉演進之路
p04
圖解“精益數據方法論”!
p15
數據分析思維九段路線圖,
你處于第幾段?
p26
APP強制收集用戶畫像信息
用于個性化推送,構成侵權
p37
目錄
contents
前“兔”無量,大展宏“兔”
進入臘月,兔年將至。在傳統文化中,兔子承載著豐富的意蘊和象征。
兔子屬于哺乳動物,耳長,上唇中間分裂,尾短,善跳躍,跑得快。種類很多,常見的有野兔和家兔之分。家兔毛色雪白,眼睛通紅,活潑可愛,喜食蘿卜青菜;野兔多土灰色,喜食草葉、草根及農作物嫩葉莖稈。兔子是人類的朋友,它的皮、毛、肉皆可為人類服務,因而在傳統文化中,兔子承載著豐富的意蘊和象征。
安靜、美好,善良、溫順是兔子留給人們的第一感官和文化符號。
“兔”在中國是一個美好的字眼。由于兔子是一種非常溫馴的動物,人見人愛,任何人只要看到它,都會情不自禁地過去摸摸它。大家所熟知的“嫦娥奔月”就是和兔子有關的美麗傳說。相傳嫦娥吃了仙丹以后,飛往月宮。而嫦娥身邊總是有一只玉兔。玉兔在廣寒宮里和嫦娥相伴,并搗制長生不老藥,從此兔在中國成為月亮的象征,成為十二生肖之一,人們在兔子這種動物身上寄托了美好的希望,賦予了奇妙的聯想。所以兔子具有善、美、祥和的寓意。在人們眼中,兔子是最善良、仁慈的,也成了舉止文雅、善忠告、謹慎乖巧、和藹可親及愛美的象征。
“兔”與十二地支中的“卯”對應,漢代王充《論衡》說:“卯,兔也。”二者組成我們的生肖“卯兔”。“卯”的本字描畫的是草木出土萌芽的形象。《說文解字》說:“卯,冒也。二月,萬物冒地而出。”在十二時辰中,“卯”時是指早晨5-7時。因此,“卯”表示春意,代表黎明,充滿著無限生機。在傳統文化中,兔子象征著長壽。道教把兔子視為能制作長生不老藥的仙兔,讓兔子在桂樹下用研缽來搗碎藥品,后來兔子慢慢演化為醫藥業的象征。
機智、敏捷,勇于挑戰和獻身精神,成為兔子的文化象征和精神圖騰。
新春佳節將近,《驅動力》雜志祝福數據部所有小伙伴,兔年大吉,前“兔”無量~!
一線
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
1、概述
1、初始狀態
網易郵箱數倉演進之路
原文鏈接://mp.weixin.qq.com/s/yq5OKzQdkcLMDAnHWOZp-g
文章來源于網易有數 ,作者張睿
? ? ? ? 本文介紹了網易郵箱數倉的演進過程和期間一些關鍵的技術方案引入決策,并闡述了這些決策背后的業務需求和技術考慮因素,以及實施后的實際產出成效。最后對整個過程進行了總結及后續展望。
? ? ? ? 第一個階段是2020年10月份之前,這時候我們的數據系統的主要任務是支持郵箱日常的運營統計;
? ? ? ? 第二個階段大概是2020年11月份到2021年的11月份,這段期間公司嘗試做業務的調整,挖掘新的長期增長方向。我們在這時候對郵箱數倉底層的OLAP引擎和整個數據處理鏈路都進行了重構,以適應業務方寬泛的即席數據探索需求;
? ? ? ? 第三個階段大概是2021年的12月份到現在,我們進入了精細化運營探索期。這個時期我們的主要工作是完善數倉結構,滿足更多、更深入的數據應用需求。
? ? ? ? 可以看到,由于每個時期面臨的主要問題不同,前兩個階段切換的主題在于重建基礎設施,而后兩個階段切換的主題則是完善上層建筑。
? ? ? ? 早期的網易郵箱數倉底層是一套完整的Hadoop體系結構,它的組件構成比較龐雜。但后期它完成的主要任務就是從貼源層計算統計結果到應用層,用作BI報表展示。
? ? ? ? 有一組數據能夠反映2020年10月份之前這個系統的狀態:整個集群大概有300個節點,存了9P+的數據,其中小文件眾多,導致元數據條目有6億+,這個元數據規模讓HDFS的NameNode不堪重負,2次崩潰。其中第二次崩潰導致郵箱所有的數據統計任務停了整整1周多的時間,這也是導致我們下決心后續對數倉進行升級改造的直接原因。
3、數倉1.0
一線
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
? ? ? ? 然而我們當時只有兩名數據開發人員,并且沒有專職的大數據運維人員。因此,從資源的角度看,我們實際上也是沒有條件繼續支撐這套體系持續穩定運轉的,一次徹底的底層重構勢在必行。根據當時的情況,重構方案在技術層面需要下面考慮三點:
- 開發效率:因為開發人員少,而基于MR框架的開發效率比較低,我們需要一個使用成本更低、效率更高的開發平臺;
- 系統性能:老系統的任務執行效率較低(尤其是邏輯較復雜的長周期統計任務),新方案應該要在大規模數據集下有更好的查詢性能;
- 運維效率:因為缺少專職的數據運維,我們需要架構相對簡單,維護難度相對低的技術選型。
? ? ? ? 另外,在業務層面,當時我們的產品和運營側都還在新方向探索期,對業務指標間的關聯性了解不足,沒有形成穩定的觀察指標體系。具體的癥狀就是這兩個:
- “不知道要什么”:當你問業務方:“最想要看哪些指標?”,結果通常都是說不上來,不知道哪些指標和用戶、會員等核心指標的提升關聯度大;
- “什么都要”:當業務方提需求的時候就是:什么都要。各種業務過程的不同維度、不同粒度下的指標都要看。
? ? ? ? 如果在這個時期就去構建完整的多層數倉結構,預先做好多維度的聚合指標,很容易變成無用功,最后要推倒重來。實
? ? ? ? 于是經過綜合考慮,我們從2020年底到2021年中逐步做了下面幾個工作:
- 第一個是將舊Hadoop集群的數據進行壓縮、清理后,遷移到新搭建的猛犸Hadoop集群(規模小了很多),成為新數倉的ODS層,向上層提供原始數據輸入;
- 第二個是選型、引入了以數據查詢和寫入性能著稱的OLAP引擎ClickHouse(下文簡稱CK),作為新數倉的DWD層,支持應用側以SQL的形式查詢、挖掘事實數據;
- 第三個是基于Kafka和Flink搭建了一套新的、支持實時數據采集的數據處理鏈路,為CK輸入清洗后的事實數據。
? ? ? ? 這套框架搭建完之后帶來下面幾個方面的好處:
? ? ? ? 際上業務側這時候最需要的是在明細事實數據層面的高性能的ad-hoc查詢能力,并且最好更夠支持他們進行自助的數據探索。
一線
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
(1)在開發層面
- 統一用SQL進行數據需求的開發,降低了開發難度,也便于形成統一的開發規范;
- 降低了業務側自助查詢的門檻,讓運營、QA、前后端開發等職能可以自己實現數據統計任務和報表產出,相當于增加了數據開發的人力(這點對我們來說很重要,它讓我們能夠在人力資源這么緊張的情況下,還能騰出手來,在數倉的外延去補充數據中臺的一些能力);
- 實現了高效的數據接入流程。
(2)在業務提效層面
- CK具有很高的單表查詢和寫入性能,提升了數據需求實現的效率;
- 依靠強大的基礎性能,CK可以覆蓋從T+1的運營統計到準實時的服務質量基線統計需求。
(3)在運維層面
- 盡管CK自身也有在擴容等方面的維護難點,但整體上相比Hadoop技術棧的組件要少,部署結構相對簡單;
- 另外CK在數據壓縮后仍能維持較好的查詢性能,有助于我們控制存儲規模。
在新數倉上線后,我們取得了比較顯著的業務和技術成效。比如在業務支撐方面,業務側自助取數占比從0提升到了80%以上,平均取數時長從天級縮短至分鐘級,當時的業務指標覆蓋度也有了質的提升;在開發層面,統計任務的開發
? ? ? ? 因為業務會成長。隨著各項運營目標的推進,大家總算是形成了一些相對穩定的業務觀察指標了,但觀察了一段時間之后的結論就是:很多關鍵業務指標的增長都出現了瓶頸。而同時在降本增效的趨勢下,運營觸達行為的轉化率要求也提升了。
? ? ? ? 實際上是業務增長現在需要更精細化的運營策略了,而這時候我們的系統能力就逐漸和新的需求演化趨勢之間產生了一些失配:
- 首先是深挖業務增長因素的多維度分析場景增多了,而CK的Join性能優化較弱,或者說對于業務側同學和數據分析師來說,要寫出高效的關聯查詢SQL的門檻比較高,所以應用復雜的維度建模方法的難度較大(如果都
效率、數據查詢性能和數據接入效率都成倍地提升;而在運維層面,我們用比之前更少的服務器資源支撐了更高的數據吞吐量,同時系統可用性還得到了提升。
看上去我們已經很好地支撐了當時的業務需求,為什么還要繼續折騰呢?
一線
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
打成CK喜歡的大寬表的模式的話,數據表的復用度低,重復開發量大,數據變更的影響也大);
- 第二個是運營策略越來越依賴用戶、設備等維度的標簽,而標簽(尤其是統計數值類標簽)是容易發生變更的,而CK對數據熱更新的支持不完善,會增加標簽維護的成本;
- 第三個是隨著更多數據應用的出現,分析查詢的頻次提升了,對數倉的并發請求增多,但CK的并發查詢支撐能力不強。
? ? ? ? 所以我們需要對系統進行進一步的能力提升。但從資源、成本以及需求時效性的角度考慮,去改造CK或者等它升級提供所需要的能力和特性顯然都不現實。
? ? ? ? 為了能夠在不大規模地改變現有架構的前提下,快速地補充缺失的能力,我們考慮新引入一個能滿足這些能力要求的OLAP引擎,并讓它主要工作在DWM層,用來承載輕度聚合數據、標簽及其他維表,并支撐業務的多維度分析需求。
? ? ? ? 于是從2021年年末起,我們按計劃引入了StarRocks,并調整了數倉的邏輯結構,從而又帶來了一系列提升:
的存算系統的方案。最終考慮到StarRocks在與現有系統的整合難度、關聯查詢優化、數據更新支持、并發查詢能力和運維成本等方面的均衡表現,決定選擇它作為新的選型。
? ? ? ? StarRocks實際上是與Doris同源的另外一個開源分支。這背后其實還隱含了另外一個選型因素,就是我們和StarRocks的技術團隊在很早之前就建立了聯系,他們也在我們的實踐過程中提供了很好的技術支持。
在這個新數倉的選型上,我們對比了業界多個優秀的OLAP引擎,其中有基于Hadoop生態的方案,也有采用獨立研發
4、數倉2.0
1)在業務支撐層面
- 可以支持并發度比較高的多維度分析查詢需求;
- 以較小的開發、維護成本滿足了數據應用側的標簽查詢需求。
(2)在開發及架構層面
一線
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
- 我們讓CK和StarRocks工作在了各自擅長的層次。在數據規模比較大的細粒度事實層,數據探索依然可以依賴CK的大寬表模式;而在中間層的開發中我們也能充分利用StarRocks的自動聚合、智能物化視圖等這些特性來提升開發效率;
- 提升通用指標的復用度,減少了重復開發;
- 降低了對明細層數據的查詢壓力。
? ? ? ? 目前,我們StarRocks中存儲了40多個標簽表,數據量達300多億條,日均數據更新7億多次,每天承載的查詢量達到了千萬級(這里包括了一些在線應用的實時請求)。
? ? ? ? 在業務成效方面,一些特定的用戶標簽讓定向引流觸達活動的點擊率平均提升了90%以上;基于數倉中間層的取數系統和畫像系統上線以來,累計節省了約10人月的數據開發人力投入;同時標簽庫也支撐了風控因子庫和個性化反垃圾模型的構建。
? ? ? ? 如果用一句話來總結到目前為止的數倉建設過程,那就是:“雖然起步晚,但幾乎總是在關鍵的業務發展節點前補充了與之匹配的能力”。我們從中得到的感觸主要有兩點:
? ? ? ? 首先是數據團隊應該時刻關注業務的運營狀態和數據的產出價值。這是我們跟上業務的發展節奏甚至推動它前進的前提,同時也體現了一種價值取向:就是技術團隊的最終產出價值通常不是技術本身,我們的技術活動的終極目標通常也不是技術先進性,而是讓業務在殘酷的市場競爭中獲得生存優勢;
? ? ? ? 其次是數倉建設無法一蹴而就。因為業務需求的演進需要一個過程,而方案的實施又有各種資源和成本上的限制,所以不可能也沒有必要從一開始就考慮實現一個大而全的系統。更好的方式可能是提前預判需求的演變趨勢,用來做長期的建設規劃,但按中短期的能力要求循序漸進地推進。
5、總結
? ? ? ? 展望未來,郵箱業務會持續發展,甚至會嘗試突破業務的領域邊界。預計會有更多針對特定領域的數據應用出現。這些應用實際上是把調用數倉算力的門檻降低了,會給數據支撐工作帶來更大的壓力。
? ? ? ? 為此我們計劃做好以下幾件事情:
- 為了保持數倉系統的健康度,需要完善數據中臺的數據治理能力,尤其是通過數據價值評估和數據生命周期管理,有效地控制數倉的熱存儲中的數據規模;
6、展望
一線
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
- 為了在降本增效的前提下應對不斷提升的應用算力需求,需要提升數倉系統的資源利用率和彈性伸縮能力,因此考慮引入OLAP引擎層面的存算分離和資源隔離機制;
- 為了應對業務領域拓展可能會帶來的不同的數據分析模式,還需要考慮湖倉一體和簡化、加速數據湖分析的方案。
? ? ? ? 很多企業和組織的數字化轉型已經進入實質性的落地階段,在落地之前大家嘗試了各種方法,大量實踐證明:數據驅動數字化轉型是目前唯一有效的手段,這已成為共識。
? ? ? ? 如何才能實現數據驅動數字化轉型?當下被越來越多企業關注和采用的“精益數據方法論”是專門為解決這個問題而誕生的。網絡上有很多關于該方法論的討論和介紹,系統、全面的不多,通俗易懂的就更少了。本文嘗試用圖解的方式來為大家介紹一下究竟什么是“精益數據方法論”。
01 精益數據方法的起源
圖解“精益數據方法論”!
原文鏈接://mp.weixin.qq.com/s/hoe8NFLrO7el7b9g1CHZWQ
文章來源于IT閱讀排行榜 ,作者史凱
? ? ? ? 要了解精益數據方法論,首先應該了解它的核心——精益思想。因為精益思想已經是有超過70年歷史的成熟方法論了,所以這里就不詳細介紹它的起源和內涵,這里重點強調一下精益思想的2個核心要義:創造價值、消除浪費。
? ? ? ? 精益思想提倡以較少的資源投入,包括較少的人力、較少的設備、較短的時間和較小的場地創造出盡可能多的客戶需要的價值。精確地定義業務價值是精益思想的第一步,如果不能精準地識別和定義客戶需要的價值,就會帶來很多浪費。緊接著就是要使保留下來的、創造價值的各個步驟流動起來。
02 精益數據方法的定義、使命和愿景
風向
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
圖1 精益思想的主要構成
? ? ? ? 分析企業利用數據的各種挑戰,很重要的就是缺少價值場景,無法識別用戶價值,而現在很多企業所面臨的數據質量不高,數據孤島的問題的本質就是由于低質量的數據生產和過渡的數據生產產生的浪費。
? ? ? ? 結合精益思想來觀察企業的數據生產,眾多的數據問題就迎刃而解,這就是精益數據方法的起源。
? ? ? ? 精益數據方法是以精益思想為核心,融合了設計思維,Cynefin框架和敏捷思想,數據驅動的,以價值為核心,高響應力的數字化轉型體系。
? ? ? ? 精益數據方法的使命是“讓數據產生業務價值”。傳統的數據管理的方法論,本質的目標都是管理好企業的數據資產,將數據當作一種資源來管理,讓數據質量更好,讓數據更安全,以管理為核心目的而不是以生產為核心目的。精益
數據方法是讓數據對齊企業的業務愿景和目標,直接以生產要素的形式參與生產,產生業務價值,而數據的質量,數據的有效管理,安全可靠更多的是為了實現這個目標的過程和工具,而不是最終的目的。
? ? ? ? 精益數據方法的愿景是讓每一個企業都成為數據驅動的精益數字化企業,通過精益數據轉型方法的實施,讓企業提升數據利用的能力。
03 精益數據方法的構成
? ? ? ? 精益數據方法由精益數據宣言、精益數據轉型、精益數字化企業和精益數據共創工作坊4部分組成,如圖2所示:
圖
2?
精
益
數
據
方
法
論
模
型
? ? ? ? 精益數據方法以精益數據宣言為指導,通過精益數字化轉型的實施,利用精益數據共創工作坊為特色手段,幫助企業打造數據驅動的精益數字化企業。
風向
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
圖3 精益數字化企業
1. 精益數據宣言
? ? ? ? 精益數據宣言包含精益數據價值觀和精益數據實踐原則兩部分,凝練了精益數據方法的核心價值理解,從底層讓相關者對齊價值,統一思想。精益數據宣言可以用在每一次精益數據共創工作坊之前,與團隊一起對齊工作理念和指導原則,先統一思想和原則,再進行下一步的動作。
2. 精益數字化轉型方法
? ? ? ? 精益數據方法包含一套數據驅動的企業數字化轉型的實施方法,通過三個階段,幫助企業一步步構建精益數字化企業的6大能力。
3. 精益數字化企業能力模型
? ? ? ? 利用精益數據方法,打造精益數字化企業,需要具備6大數據驅動的能力,如圖3所示。
- 精益數據戰略
? ? ? ? 精益數據戰略,解決企業業務與數據如何融合的頂層設計問題。精益數據戰略是在傳統數據戰略基礎上,聚焦客戶及業務價值,以精益數據方法為理論指導,結合敏捷思維,輕量級共創式的咨詢規劃方法。通過精益數據戰略的構建,打造企業全鏈路數據價值流,識別企業痛點和價值點點,將數字化轉型解構成一個個的業務場景,再針對不同的問題制定對應的策略予以解決,最終快速迭代。精益數據戰略是打造其他五大能力,推進企業數字化轉型的總體設計,本書第3章有詳細闡述。
- 精益數據產品
? ? ? ? 數據產品是數字經濟的主要承載形式,有著超越傳統實體產品的數字化優勢,企業數字化轉型就是要識別價值場景,利用數據要素,打造新的數據產品,形成新的業務模式,獲得新的收入來源。
? ? ? ? 精益數據方法能夠幫助企業探索,創新,打造新型數據產品,提升企業的收益能力,本書第4章有詳細闡述。
- 精益數據治理
? ? ? ? 精益數據治理是利用精益數據方法,圍繞業務價值的輕量級數據治理方法。不同于傳統的數據治理體系, 精益數據治理并不以構建完美的數據標準為目標,而是以解決業務問題,實現業務價值為目標,通過主動,運營,迭代的治理流程,充分與業務融合,輔助以數據協同共享工具,消除數據
風向
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
圖4 精益數據方法解決4大問題
生產的7大浪費,充分發揮數據的價值。本書第6章有詳細闡述。
- 數據協同創新
? ? ? ? 精益數據方法認為,目前很多企業只關注數據的生產能力,但是忽視了數據的協同共享機制,這是導致數據質量差,數據孤島的重要因素。所以,建立內外部數據協同創新體系讓業務,數據和技術全鏈路拉通,是打造數據驅動企業的重要手段。數據協同創新的核心是要打造端到端閉環,數據要素為生產資料的高效協作,快速創新的數據價值引擎。本書第六章有詳細闡述。
- 精益數據中臺
? ? ? ? 精益數據中臺是精益數字化企業的核心生產力平臺,打造企業級統一,高效,敏捷的數據生產能力,支撐企業業務的快速響應和創新。精益數據方法總結了2個問題域,6大數據生產能力的精益數據中臺成熟度模型,不同的企業可以根據自身的需求和特點,來建設自己的數據中臺。本書第7章有詳細闡述。
- 數據驅動的組織文化
? ? ? ? 數字化轉型是一個體系化的問題,所以在轉業務和轉技術的同時,也有配套的組織和文化轉型。打造數據驅動的組織和文化,是企業數字化轉型成功的保障機制,也是比業務和技術更加復雜的工作。本書第八章有詳細闡述。
- 精益數據共創工作坊
? ? ? ? 精益數據共創工作坊是作者原創的,國內第一套以精益數據共創卡牌為工具,沉浸式體驗,互動創新的桌游式工作坊。能夠幫助企業的業務人員和技術人員一起共創業務價值場景,梳理數據資產,數字化技術藍圖,制定轉型路線和項目清單。
04 精益數據方法的價值
? ? ? ? 精益數據方法是一套體系化,結構化的數字化轉型方法論,幫助企業解決數字化轉型的4大問題,打造數據驅動的企業,如圖4所示:
1. 構建數據戰略
? ? ? ? 精益數據方法,結合傳統的自上而下的企業架構規劃和敏捷的自下而上探索創新,將業務,數據和技術很好地結合,利用精益數據共創工作坊這樣的輕量級,互動式咨詢方
風向
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
圖5 精益數據共創卡牌
法,幫助企業構建用戶價值為核心的、高響應、可落地的數據戰略。
2. 共創價值場景
? ? ? ? 精益數據方法首創的卡牌式共創工作坊,能夠幫助企業的業務人員和技術人員相互協同,探索創新,從而形成企業的數字化業務場景藍圖,按圖索驥去快速產生業務價值。
3. 繪制數據資產藍圖
? ? ? ? 解決數據孤島,數據質量問題的核心是主動式數據規劃和治理,將業務充分理解建模形成企業的數據資產藍圖,在以此藍圖為指導去規劃數據的生產,數據加工和數據消費的應用藍圖。
4. 構建數據中臺
? ? ? ? 企業數字化能力的核心就是數據生產,數據采集,數據加工和數據消費的能力,而數據中臺就是提供業務價值的一站式數據生產平臺。精益數據方法利用輕規劃,速構建的切片式架構方法,幫助企業打造數據中臺。
- 精益數據共創工作坊
? ? ? ? 精益數據共創工作坊是作者原創的,國內第一套以精益數據共創卡牌為工具,沉浸式體驗,互動創新的桌游式工作坊。能夠幫助企業的業務人員和技術人員一起共創業務價值場景,梳理數據資產,數字化技術藍圖,制定轉型路線和項目清單。
05 精益數據共創卡牌
? ? ? ? 為了讓精益數據方法易實操、可落地,該方法論還專門配有一套劇本殺式的卡牌,根據卡牌的提示即可輕松、有序地開展數字化轉型。
? ? ? ? 為什么精益數據方法比傳統的數字化轉型方法更有效?
第一,精益數據方法適應變化的能力更強。
? ? ? ? 企業和組織在數字化轉型的過程中會有很強的不確定性,幾乎不可能在數字化轉型之初就規劃和設計好所有的動作,必須在行進的過程中不斷根據變化做出調整。精益數據方法的底層邏輯是自上而下的企業架構思想,與自下而上、圍繞客戶價值和場景出發的精益思想的結合。先明確業務目標,然后對齊目標,自下而上探索,共創出相對確定性的價
06 為什么精益數據方法更有效
風向
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
值,所有能助力實現目標的價值場景。這個過程就像先把雨林中的地基探索一圈,識別問題風險,找到蓋房子的邊界,再沿著這個邊界做自上而下的規劃,層層落地。這樣就能夠既能夠快速識別不確定性的邊界,又能夠在最大可能的確定性下做規劃分解,指導實施。
第二,這套方法論來自于全球優秀企業的實踐。
? ? ? ? 不僅有富國銀行、奈飛、字節跳動、ThoughtWorks這樣的全球巨頭在用并取得了很好的成效,而且國內有大量的傳統企業在作者的指引和帶領下也取得了很好的效果。精益數據方法論是作者基于這些企業的實踐經驗總結而來的,已經得到了實踐的檢驗。
第三,這套方法論有完善的理論模型,有可靠的科學依據。
? ? ? ? 作者結合自己20余年的信息化和數字化工作經驗,花了近4年的時間來反復推演和打磨,提煉出了精益數據方法論模型,模型涵蓋企業數字化轉型應具備的企業文化、能力模型、轉型路徑和步驟指引。
第四,這套方法論有詳細的操作指引。
? ? ? ? 數字化轉型是一個復雜的系統工程,很多傳統的方法論講得很好,讀者看了后也覺得甚是有理,但是一旦要落地,讀者又不知該從何處下手,因為理論和實踐是脫節的。精益數據方法論不僅有完備、科學的理論模型,而且還有詳細的操作指引,作者獨創的精益數據方法共創卡牌,能讓讀者用劇本殺的方式輕松、有序地開展數字化轉型。
? ? ? ? 也就是說,無論是理論還是實操,精益數據方法都比大多數傳統數字化轉型方法更勝一籌,這也是為什么有如此多的企業認可它并愿意嘗試它的原因。
數說
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
數據分析思維九段路線圖,你處于第幾段?
原文鏈接://mp.weixin.qq.com/s/-14BrlGnkernZ0J1K8wYJg
文章來源于林驥 ,作者林驥
初段:目標思維
? ? ? ? 我做了 10 多年的數據分析,期間有很多同學問我,數據分析主要有哪些思維?學習的路線是怎么樣的?
? ? ? ? 為了提供一個簡單的方向指引,讓數據分析思維的學習過程更加有趣,我做了一幅數據分析思維九段路線圖,你可以把學習的過程當作一種游戲,享受段位升級的樂趣。
在段位升級的過程中,如果你理解起來感覺比較吃力,那么應該沉下心來,認真地先把基礎打好,積累更多的數據分析經驗。
# 01.
? ? ? ? 做數據分析,首先要一定明確目標,以終為始。
? ? ? ? 只有明確目標,才不會迷失方向,就像導航軟件,如果沒有設置目的地,那么它是沒法告訴你路線圖的。
目標思維主要體現在以下 3 個方面:
(1)正確地定義問題
? ? ? ? 比如說,小明聽了煎餅大媽月入 3 萬的故事,心里就想:為什么煎餅大媽月入 3 萬?
? ? ? ? 這個問題的定義,應該是關注「月入 3 萬」,而不是「煎餅大媽」。
? ? ? ? 也就是說,小明想的應該是「如何實現月入 3 萬」,而不是「如何變成煎餅大媽」。
(2)合理地分解問題
? ? ? ? 比如說,煎餅大媽如何實現月收入 3 萬?
? ? ? ? 這是一個比較大的問題,可以進行細分,因為收入等于訂單數乘以客單價,所以把這個問題細分為兩個小問題:
- a. 如何實現一個月賣 5000 個煎餅?
- b. 如何實現平均每個煎餅賣 6 塊錢?
(3)抓住關鍵的問題
? ? ? ? 在不同的發展階段,關鍵問題是不一樣的。
? ? ? ? 比如說,對煎餅大媽來講,剛開始做的時候,關鍵問題是:如何選擇人流量大的好地段?
數說
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
二段:對比思維
? ? ? ? 當選好地段之后,關鍵問題就變成:如何提高路人來購買的概率?如何提高客單價?如何提高重復購買率?
? ? ? ? 總之,數據分析的目標,就好比槍上的瞄準器,如果沒有瞄準器,槍照樣可以打,但是有了瞄準器,槍才可以打的更準。
# 02.
? ? ? ? 在數據分析中,沒有對比,就沒有結論。
? ? ? ? 比如說,小明某次期末考試的成績不好,英語只得了 30 分,小明的媽媽對他說:“你上次考試英語考了 70 分,這次怎么就考得這么差?你看你的同班同學,這次都考 80 分以上。”
常見的對比思維有以下 5 種:
(1)跟目標對比
(2)跟上個月比
(3)跟去年同比
(4)分渠道對比
(5)跟同類對比
沒有對比,就沒有傷害。
? ? ? ? 數據分析的過程,就是在明確目標之后,通過對比等思維,找到問題的原因,得出分析的結論,提出可行的建議,從而起到幫助決策和指導行動的作用。
# 03.
三段:細分思維
不自由,毋寧死。
? ? ? ? 在數據分析中,細分是數據分析的靈魂,無細分,毋寧死。
? ? ? ? 比如說,小明某次考試的總成績不好,細分一看,發現其他科目的成績都不錯,只有英語成績特別差,只得了 30 分,從而拉低了整體的成績。
常見的細分方法有以下 5 種:
(1)按時間細分
(2)按空間細分
(3)按過程細分
(4)按公式細分
(5)按模型細分
? ? ? ? 在運用細分思維解決問題的過程中,要做到有的放矢,圍繞數據分析的目標,找到合適的方法,不要像無頭蒼蠅一樣到處亂撞。
數說
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
四段:溯源思維
? ? ? ? 當發現數據異常時,嘗試從不同的維度進行細分,這樣既能鍛煉你的數據分析思維,又能加深你對業務的理解。
# 04.
? ? ? ? 做數據分析的時候,要多問幾個為什么,追根溯源,在數據源尋找可能隱藏的邏輯關系和解決方案。
? ? ? ? 比如說,小明把自己每天的行動數據,都用 Excel 詳細記錄下來,其中包括每一時段的情緒數據。小明做復盤總結的時候,發現有一天情緒數據特別低,然后連續問了幾個為什么:
(1)為什么這一天情緒數據特別低?
因為那一天小明上當受騙了。
(2)為什么會上當受騙?
因為騙子用生命安全來嚇小明。
(3)為什么騙子能嚇到小明?
因為小明擔心自己的生命安全。
(4)為什么小明會擔心生命安全?
因為求生是人類的本能反應。
(5)為什么人會有求生的本能?
? ? ? ? 因為人的大腦分為:年代久遠的本能腦、相對古老的情緒腦和非常年輕的理智腦。
? ? ? ? 理智腦對大腦的控制能力很弱,大部分決策往往源于本能和情緒,而非理智。
? ? ? ? 到這一步,小明找到了自己上當受騙的根本原因,在于自己當時沒有控制好自己的大腦,所以失去理智。
? ? ? ? 針對這個問題,小明運用「控制兩分法」,并在腦海中反復進行演練,然后在實踐中進行校正,實現與情緒的和平共處,從而更加理智地面對紛繁復雜的世界。
? ? ? ? 如果你經常運用溯源思維,就能提升數據的敏感度,并加深對業務的理解。
# 05.
五段:相關思維
? ? ? ? 相關思維,就是尋找變量之間相互關聯的程度。
? ? ? ? 比如說,有一家超市的數據分析師發現,跟尿布一起購買最多的商品竟然是啤酒,啤酒和尿布有什么關聯呢?
? ? ? ? 采訪小明的爸爸,他說自己下班后,給小明的妹妹買尿布的同時,也會購買自己喜歡喝的啤酒。
? ? ? ? 如果一個變量改變的時候,另一個變量也朝著相同的方向發生變化,那么我們就說這兩個變量之間存在正相關性。
? ? ? ? 運用相關思維,通常包括以下 3 個步驟:
(1)收集相關數據
(2)繪制散點圖形
數說
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
六段:假設思維
(3)計算相關系數
? ? ? ? 需要注意的是,相關不等于因果。即使兩個變量之間相關,也不代表其中一個變量的改變,是由另一個變量的變化引起的。
? ? ? ? 比如說,國家的諾貝爾獎數量,與巧克力消費量之間呈現正相關關系,但這并不是說,多吃巧克力有助于獲得更多的諾貝爾獎。
? ? ? ? 一種合理的解釋是,諾貝爾獎的數量與巧克力的消費量,很可能都是由其他變量導致的,例如國民的受教育程度和富裕程度。
# 06.
? ? ? ? 這句話非常適合用在數據分析領域。
? ? ? ? 大膽假設,就是要打破既有觀念的束縛,掙破舊有思想的牢籠,大膽創新,對未解決的問題提出新的假設。
? ? ? ? 小心求證,就是基于上面的假設,用一種嚴謹務實的態度,尋找真相,不能有半點馬虎。
? ? ? ? 比如說,有一天小明去買水果,跟賣水果的阿姨說:
? ? ? ? “阿姨,你這桔子甜不甜?”
? ? ? ? 阿姨:“甜啊,不信你試試。”
? ? ? ? 小明:“好,那我試一個。”
? ? ? ? 小明剝開一個桔子,嘗了一口說:
? ? ? ? “嗯,不錯,確實挺甜的,給我稱兩斤。”
? ? ? ? 運用假設思維,通常包括以下 3 個步驟:
? ? ? ? (1)提出假設
? ? ? ? (2)統計檢驗
? ? ? ? (3)做出判斷
? ? ? ? 大膽假設并非絕對可靠,但是通過小心求證,我們可以更好地認識世界上的許多現象,從而得出更有價值的分析結論。
# 07.
七段:逆向思維
? ? ? ? 到了七段,你已經具備比較豐富的數據分析經驗,此時如果想要進一步有所突破,就得打破常規,具有逆向思維的能力。
? ? ? ? 比如說,有一天小明去買西紅柿:“阿姨,你這西紅柿多少錢一斤?”
? ? ? ? 阿姨:“兩塊五。”
? ? ? ? 小明挑了 3 個放到秤盤:“阿姨,幫我稱一下。”
? ? ? ? 阿姨:“一斤半,3 塊 7 毛。”
? ? ? ? 小明去掉其中最大的西紅柿:“做湯不用那么多。”
大膽假設,小心求證。
數說
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
八段:演繹思維
? ? ? ? 阿姨:“一斤二兩,3 塊。”
? ? ? ? 小明拿起剛剛去掉的那個最大的西紅柿,付了 7 毛錢,扭頭就走了。
? ? ? ? 你看,本來是阿姨想占小明的便宜,虛報重量。但是,小明利用逆向思維,反而讓阿姨吃了啞巴虧。
? ? ? ? 常見的逆向思維有以下 5 種:
? ? ? ? (1)結構逆向
? ? ? ? (2)功能逆向
? ? ? ? (3)狀態逆向
? ? ? ? (4)原理逆向
? ? ? ? (5)方法逆向
? ? ? ? 理解這些逆向的方法,有助于你打開數據分析的思路,不斷提升自己的可遷移能力,尤其是底層的思維能力,做到以不變應萬變。
# 08.
? ? ? ? 演繹思維的方向是由一般到個別,主要形式是「三段論」,由大前提、小前提、結論三部分組成。
? ? ? ? 比如說,小明不僅知道:金屬都能導電;而且知道:銅是一種金屬;所以小明可以得出結論:銅能導電。
# 09.
九段:歸納思維
? ? ? ? 運用演繹思維,應該遵循 5 項基本原則:
? ? ? ? (1)不要出現第四個概念
? ? ? ? (2)中項要能向外延伸
? ? ? ? (3)大項和小項都不能擴大
? ? ? ? (4)前提都為否,結論不必然
? ? ? ? (5)前提有一否,結論必為否
? ? ? ? 掌握以上基本原則,能幫你建立更加嚴謹的數據分析思維。
? ? ? ? 歸納思維的方向與演繹正好相反,歸納的過程是從個別到一般。
? ? ? ? 比如說,小明先知道:金、銀、銅、鐵等金屬分別能導電,然后歸納出一個結論:所有金屬都能導電。
? ? ? ? 這個過程,是先接觸到個別事物,然后再進行歸納總結。
? ? ? ? 常見的歸納方法有以下 5 種:
? ? ? ? (1)求同法
? ? ? ? (2)求異法
? ? ? ? (3)共用法
數說
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
? ? ? ? (4)共變法
? ? ? ? (5)剩余法
? ? ? ? 這些方法是我們獲取新知識的重要途徑,不過需要注意的是,很多案例和故事都說明,有限的觀察并不等于真理。
? ? ? ? 為了避免以偏概全,我們還要加強歸納思維的訓練,積累更多實戰的經驗,這樣歸納總結出來的結論,才能經得起時間的考驗,才會更有現實意義。
? ? ? ? 通過歸納總結,得出有價值的分析結論,這既是數據分析的終點,也是數據分析的起點,形成一個正向的循環系統。
--最后的話--
? ? ? ? 正確的思維能力,是做好數據分析的必備條件,這也是很多人相對比較欠缺的一種能力。
? ? ? ? 要想成為一個有洞察力的人,就要多學習、多思考、多總結、多實踐,通過刻意練習,舉一反三,把數據分析的思維,應用到日常的工作和生活中去,逐漸提升自己的數據分析思維能力。
案情回顧
北京互聯網法院:APP強制收集用戶畫像信息用于個性化推送,構成侵權
原文鏈接://mp.weixin.qq.com/s/jlovnjv4rNluZA_ywaymAw
文章來源于數據法盟
? ? ? 近日,北京互聯網法院審結了APP強制收集用戶畫像信息侵權案。該案中,原告羅某認為被告運營的軟件在用戶首次登錄時強制收集用戶畫像信息用于個性化推送,侵犯其個人信息權益。法院經審理認為,涉案軟件在首次登錄界面收集用戶畫像信息,未設置“跳過”“拒絕”等路徑,屬于強制收集,構成侵權,依法判決被告涉案軟件運營者承擔相應侵權責任。宣判后,被告上訴,二審維持原判,目前該案已生效。
準繩
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
法院經審理認為
? ? ? ? 原告羅某訴稱,被告運營的軟件在未告知隱私政策的情況下,要求用戶必須填寫“姓名”“職業”“學習目的”“英語水平”等內容才能完成登錄,屬于強制收集用戶畫像信息。同時,原告還主張被告存在未經同意向其發送營銷短信、向關聯軟件共享信息等行為,侵犯其個人信息權益。原告訴至法院,要求法院判令被告涉案軟件運營者向原告提供個人信息副本、停止侵權、刪除個人信息、賠禮道歉并賠償損失。
? ? ? ? 被告涉案軟件運營者辯稱,由于被告服務的性質,需根據不同用戶需求,為用戶推薦合適的服務內容,因此,收集相關標簽是提供服務所必需,并未違反個人信息收集的必要性原則,且該信息是原告主動填寫,原告通過自己主動作出的行為同意了被告的信息收集行為。
? ? ? ? 法院查明,原告在登錄涉案軟件時,進入賬號登錄界面輸入用戶名和密碼,點擊登錄,即出現若干問答界面,需要對用戶“職業”“學習目的”“英語水平”等內容進行填寫,填寫完成后,還需填寫個人基本信息界面,輸入中英文名等必填內容才能完成注冊并進入首頁。上述過程中并無“跳過”選項,亦無關于同意收集個人信息的提示。原告另行取證,在新用戶注冊登錄時,在上述過程中出現若干問答界面前,會出現個人信息收集授權同意界面,用戶在勾選同意后方可進入下一界面。
? ? ? ? 從相關行業規范上看,《個人信息安全規范》明確規定,個性化決策推送信息不應作為必要或唯一的信息推送模式,需同時提供不針對個人特征的選項或提供便捷的拒絕方式。據此,被告不得以僅提供個性化決策推送信息這一種業務模式為由,主張收集用戶畫像信息為提供服務的前提。
? ? ? ? 從涉案軟件功能設置本身上看,履行合同所必需的范圍,應限定在軟件運營者提供的基本服務功能,或用戶在有選擇的基礎上自主選擇增加的附加功能。被告抗辯其針對不同用戶需求推送個性化信息,雖可視為增進用戶體驗之舉,但不能據此認定此為基礎功能或用戶必選功能而作為履行合同所必需。
? ? ? ? 涉案軟件在用戶首次登陸界面要求用戶提交畫像信息,未設置“跳過”“拒絕”等不同意提交相關信息外的登陸方式,使得提交相關信息成為成功登錄、進入首頁使用軟件的唯一方式。此種產品設計將導致不同意相關信息收集的用戶為實現使用軟件的目的,不得不勾選同意或提交相應的信息。此種同意或對個人信息的提供,是在信息主體不自由或不自愿的情況下,強迫或變相強迫地作出,不能被認定為有效同意。
? ? ? ? 綜上,被告收集用戶畫像信息的行為并非“履行合同所必需”,亦未征得用戶有效同意,構成侵權。
? ? ? ? 同時,被告未經同意向原告發送營銷短信、向關聯軟件共享信息亦構成侵權,法院判決支持原告行使查詢權和復制權。
準繩
HAPPT New Year !
驅動力
HAPPY SPRING FESTIVAL!
裁判結果
? ? ? ? 最終,法院判決被告涉案軟件運營者向原告羅某提供個人信息副本、刪除個人信息并停止個人信息處理行為,賠禮道歉并賠償維權支出2900元。
? ? ? ? 數字經濟時代,數據作為生產要素的利用、流動和保護問題,成為構建新時代網絡空間治理秩序的重要組成部分。在移動互聯網產業中,以個性化推薦模式作為基礎的商業創新的現象層出不窮,用戶畫像作為個性化推薦過程中需要處理的典型個人信息,其保護和處理規則的確立和完善對于行業發展具有重要規范意義。
? ? ? ? 本案中,法院確認了用戶畫像作為個人信息的法律屬性,并明確了其收集和處理中兩個基本問題的重要規則。一是是否需要獲取用戶同意,法院認為,如果個性化推薦并非涉案軟件的基礎服務功能,則收集用戶畫像不屬于履行合同所必需,從而需要獲得用戶同意;二是如何認定“有效同意”,被告未能提供用戶自主選擇情況下的強制收集,不能認定為有效同意,從而構成侵權。法院的判決為用戶畫像的產業應用確立明確的法律規則適用標準,能夠為包括用戶畫像在內的個人信息處理行為提供清晰的指引,從具體事實和場景出發,強調個人信息權益保護與數據要素流通秩序的協調統一,為確立一般性的行業合規規則提供基礎,有助于數字經濟產業規范、有序、健康發展。
專家點評
中國社會科學院大學、互聯網法治研究中心執行主任劉曉春
易寶支付 · 數據部
朝陽區朝外大街甲6號 萬通中心D做25層
KAI.ZHAO@YEEPAY.COM