summer
Vol 9.02022-07
夏天的聲音
驅動力
在夏天的原野上
在夏天的原野上
我們的步伐悠閑而又美麗
我們年輕
風吹著
散文詩一樣的情調
抵達我的心靈
與夏天的原野一起搖曳
我們是幸福的戀人
有一種無言的默契
我有長長的讀后感
你有瀟灑的風韻
我們寧靜在夏天的風里
我的暢想
恬恬欲醉
我的猜想
浪漫而已惆悵
夏天的原野有一萬種風情
我愛
起于水
為一種情緒潸然淚下
目錄
一線? |? 年中總結的圖表沒靈感?參考這20個新穎圖表,總有1款適合你
數說? |? 從北京健康寶核酸天數算法調整說指標標準的嚴肅性
準繩? |? |數據堂涉侵犯公民個人信息案,日均傳輸曾達1.3億余條
經常有學員朋友會這樣提問:
?“您看我這個數據,該怎么做圖好看?”
然后甩上來一張密密麻麻的大報表。
這個問題怎么回答呢,不好回答,因為這是分析環節,不是做圖環節。
我們說,第1,流程上應該是先有分析后有圖表,先分析出結論,再用圖表來表達和佐證這個結論。而不是對著一張密密麻麻的大表,就想用什么圖表。
第2,圖表的主要目標不是好看,而應該是呈現你發現的事實,佐證你想說的結論。好看是需要的,但不是主要目標。
今天剛好看到個數據表例子,大家看看,該怎么提煉數據,做圖表。這還是個小表,不算大表:)
“年中總結的圖表沒靈感?”
參考這 20 個新穎圖表,總有 1 款適合你
摘自數據化管理公眾號,作者:劉萬祥原文鏈接://mp.weixin.qq.com/s/uYbUrtLUWNYqnGmELKlRgA
我們最常見的習慣和做法,就是把一整張表都塞進1個圖表里去,例如做成這樣的圖:▼
老實說,能做出這個 多柱多線的柱線組合圖,至少也是對圖表比較熟悉的程度了,是高手。這圖可以用,但還不夠好,因為太復雜了,讀起來有些吃力。
如果領導還要求把數據標簽也加上,那就實在太凌亂了,還沒看就頭大了。▼
那怎么做圖好呢?
先分析數據,提煉你的觀點,然后做圖來表達觀點。根據情況,可以做多個圖表,而不一定只做1個圖表。
通過對上面的數據進行分析,結合這兩年的疫情形勢,我們可以知道:
因為在家辦公的流行,導致PC需求量大幅增長。
但各家廠商增長率差異較大,導致市場份額此消彼長,戴爾丟失的份額讓給了蘋果。
以前說不進則退,而這里是 進慢了也是退。
這些結論應該寫在你的圖表或儀表板的標題里,下面的例子里我們就簡化了。我們看一些可能的做圖方式。
1,單純要比較各公司的出貨量,使用普通的條形圖、柱形圖即可,簡單易懂:▼
上面兩幅圖使用了 tusimpleBI 的 一鍵美化 和 圖表標題,快捷方便效率高。
2,想顯示各公司的市場份額占比,可以使用餅圖或圓環圖。
這里使用圓環圖,因為中間孔洞可以填入總數。使用 餅圖標簽 的 內外排列 和 水平排列 按鈕進行標簽優化:▼
3,想同時反映出貨量和市場份額,這是兩個不同量級的指標,可以試試 條泡圖:
4,想反映各公司兩年的出貨量和變化,最常見的是使用簇狀柱形圖。
不過,上圖中氣泡和條形圖的大小比例關系其實是完全一樣的,屬于重復映射了,因此建議只使用 條簽圖 即可:▼
不過,普通的簇狀柱形圖實在太普通了,沒有亮點,容易因為審美疲勞而被忽視。我們使用 簇狀增長箭頭 功能,直接標上箭頭和增長率標簽,給圖表畫龍點睛:▼
這種箭頭標注方式,tusimpleBI 里還有10種方式可選用。
很多朋友希望我們的 柱泡圖 能支持2個柱子,以實現下圖的樣式:▼
這個圖確實綜合性很強,簇狀柱形圖反映了兩年數據比較,氣泡大小反映了增長率大小。現在我們也實現了,用 tusimpleBI 一鍵出圖即可。
5,如果更關注市場總體情況,可使用堆積柱形圖,堆積的高度就是市場總體規模。使用 增長箭頭 功能,可實現麥肯錫式的標簽法。
如果要更突出市場總體出貨量及其變化,使用堆積柱形圖:▼
如果要更關注各公司市場份額及其變化,可使用百分比堆積柱形圖:▼
6,關于兩年數據比較,tusimpleBI 還有兩個“3合1”圖表殺器,即 偏差圖,直接就幫我們把 增長額、增長率都算好了、圖表化了:▼
7,箭頭連接的 滑珠圖 也可以反映2年數據比較,箭頭的長度就是增長的額度:▼
熟悉之后,你還可以利用橫條的條形圖系列,添加標簽 顯示增長率。▼
8,簡潔一點,可以只反映本年出貨量和同比增長率兩個指標。
兩個不同單位/量綱的指標,正適合 條泡圖 :▼
不等寬柱形圖、條形圖,也是用來反映兩個不同的指標的,這兩個指標通常還可以相乘:▼
不過這種圖一般讀者難看懂,需要注意使用。這個圖里的平均線,目前采用算術平均計算的,如不需要可選中后刪除。
9,數據分析中有一種方法,用四象限矩陣來分析各公司所處的市場位置。
這里我們用 x=增長率、y=市場份額、z=21年出貨量,做 氣泡圖,添加 四象限十字線,得到下面的矩陣分析圖,可以看到各公司所處的位置。▼
10,如果是媒體傳播類用途,例如微博微信傳播圖表,可以使用更為吸引眼球的信息圖表形式。
反映各公司出貨量規模比較:▼
反映兩年出貨量及增長率:▼
反映各公司所占市場份額:▼
11,單元格可視化方式。tusimpleBI 的單元格可視化組,提供了很多對表格進行可視化的手段,如 數據條、小氣泡、小餅圖:▼
事發
7月2日早上,我去加班。進門的時候門衛小哥好心提醒我:哥們,該做核酸了!
彭友們好,我是老彭啊。這兩天我的彭友圈都被刷爆了。一個是網傳某市數據泄露,23.88個T的個人及機密數據,有人在網上賣,10個比特幣就行。
一堆人在那里罵,還有人未雨綢繆,未來1、2年將會是電信詐騙的高發期。
不過這個消息尚未確認,估計也沒法確認,大家各自注意就好了。
另一個事情是北京健康寶調整核酸檢測時長的規則,導致影響一堆人出行,再次引發無數人罵娘。
這可是非常典型的數據標準調整引發的災難。
以上這些圖表形式,都可以使用,取決于你想要表達和強調的側重點,以及你個人的偏好和品味了。
12,這么多圖表類型,是不是挑花了眼?
在合適的數據、合適的場景,使用合適的圖表,也是需要了解的圖表知識。可參考這個 圖表類型指南:▼
“從北京健康寶核酸天數算法調整說指標標準的嚴肅性”
文章摘自大數據架構師,作者:彭文華
原文鏈接://mp.weixin.qq.com/s/l9H7Fta60exevWZ1bL03XA
其實2號下午就變了,但我特意熬到3號凌晨截的圖。就是想驗證一下計算邏輯,以及他們的解決辦法。
其實這事他們用了一個很簡單的辦法解決的。他們沒有把計算邏輯調整回去,而是把所有6月29日-7月2日凌晨出結果的核酸歷史記錄里,增加了一條數據
北京常駐+流動人口一直有紅線,就是控制在2300萬以內。所以只需要給2300萬人中,核酸檢測時間在6月29日-7月2日0-6點出結果的人加一條記錄即可。
從老彭個人檢測時間的分布上來估計,應該大概有4-50%的概率(核酸檢測機構真的很辛苦),也就是大約1000萬左右。
有人問了,為啥不把邏輯改回去呢?圖片
很簡單,系統發布有非常嚴格的流程,需要測試多次才可以。另外,這次規則調整其實是深意的。
我左思右想,總覺得這事不對頭。于是我加班空余特意過去又掃了個碼,截圖留存了。
我是6月29日做的核算,6月30日凌晨出的結果:
按照老邏輯,應該是這樣的:
6月30日是陰性0天;
7月1日是陰性1天;
7月2日是陰性2天。
為啥7月2日變成陰性3天了?
一看新聞才知道,北京健康寶的核酸時長計算邏輯發生調整了,對凌晨0-6時出具核酸檢測結果的核酸檢測天數計算規則進行了調整,由原來的當日顯示為0天,調整為顯示1天。
也就是說:北京健康寶沒有0天的邏輯了
老彭的第一反應就是:肯定有一堆人遭殃了!如果是6月29日出的結果,原本7月2日應該是陰性3天,符合72小時出行陰性要求。
但是按照新的規則,這些人就會被判定為陰性4天,不符合出行要求,無法出行了。這不亂套了么?
02 應對
估計也是被逼的。北京火車站、機場接到大量反饋,于是緊急出臺臨時措施,讓核酸陰性4天(原邏輯3天)的乘客正常出、返京,這才沒出大事。
另一方面,北京經信局也接到了大量的反對意見和強烈質疑,趕緊商量解決辦法。
到下午,老彭的健康寶又變了,從核酸陰性3天變回2天了。
3、執行流程的缺位。
我絕對相信北京經信局內部有非常嚴格的執行流程。但是北京健康寶不是內部系統,而是影響全社會的系統。絕對不能搞“政策突襲”,要提前發布公告,通知機場、火車站、高速等交管部門,告知民政部門做好對應措施,告知市民如何應對。然后在既定時間進行調整。
是的,老彭我把執行流程放在最后了,把標準和數據放在前面。因為沒有標準和數據的意識,就無法預判可能發生的問題,也就不會有完備的執行流程。
數據理念普及長路漫漫,我輩還需持續努力!
03 問題
那么問題在哪里呢?
按老彭說,這事得辦!而且必須辦!越早越好!現在辦都有些晚了!
但是就目前出現的狀況而言,肯定是出毛病了。我估計很多人還沒明白其核心問題所在。
老彭認為,這件事有以下核心問題:
1、標準的嚴肅性不足。
標準的制定和更改是需要經過非常謹慎的研判的。最重要的是上下數據、業務依賴關系的研判。在這件事情上,北京健康寶核酸計算規則調整沒有進行充分的研判,沒有考慮到下游業務依賴關系,導致調整后嚴重影響市民出行。
2、數據的權威性不足。
這里不是所健康寶的數據不夠權威。而是內部對于數據權威性的認知還不夠。系統上線需要走很多流程,但是為什么插入數據,并重新跑批計算核酸時長就可以快速執行?為了解決問題,插入一條臨時記錄是個啥意思?雖然這是為了解決問題,但是違背了數據真實性,會導致我等P民對數據權威性的挑戰啊!
北京防疫規則是72小時陰性證明。按照政策,應該是保證三天一檢就行。
但是會出現當天檢測,第二天下午才出結果的情況。如果早上有會,那不就全完了么?
所以如果有重要的事情,或者單位門衛看得嚴,我們大多都是兩天一檢。三天一檢和兩天一檢看上去差不多,但是對于財政支出,就是非常恐怖的事情了!
三天一檢,一個月只需檢10次即可,而兩天一檢就需要15次!增幅50%!
按照2022年5月25日發布的《關于進一步降低新冠病毒核酸檢測和抗原檢測價格的通知》具體要求:
“對于政府組織的大規模篩查、常態化檢測,要充分考慮到規模效應和基層組織、志愿者
對成本的分擔效應,新冠病毒核酸多人混檢按照不高于每人份3.5元的標準計費,檢測機構僅提供樣本轉運及檢測服務的,需進一步降低計費標準。”
以及北京2021年年末人口2189萬來算,三天一檢,一個月需2189*3.5*10=7.6億元,而兩天一檢一個月需2189*3.5*15=11.4億元!一個規則就能節省3.8億元/月!!!
當然,老彭這么測算是不精準的,但是數量級是沒問題的。數據標準怎么體現價值?這就是價值!
但是有一說一,這事兒辦的的確有問題。
數據堂涉侵犯公民個人信息案,日均傳輸曾達1.3億余條
時隔一年,新三板掛牌公司數據堂牽涉其中的侵犯公民信息案終于審結。2018年7月11日,數據堂發公告稱,公司某一客戶因出售公民個人信息被公安機關調查,公司個別相關人員牽連涉案接受調查。2018年5月9日、7月10日,該案兩次開庭審理完畢,尚待宣判。
一直自稱新三板“數據第一股”的數據堂,是一家數據市場服務提供商,主要業務涵蓋數據采集、制作、交易等。2017年5月,數據堂就被媒體爆出牽涉信息泄露、高管被抓、公司經營異常等問題。
7月13日,新京報記者來到位于北京中關村的數據堂總部,工作人員告訴記者,公司目前經營正常。公司前臺告訴記者董事長、董事會秘書均在出差,將會聯系董秘給記者回電話,但截至7月15日發稿,記者一直未接到相關回復。
牽涉個人信息泄露案,公司正常辦公
記者13日來到北京中關村數據堂的總部探訪,看到數據堂公司正常辦公。
當記者問及公司涉及的信息泄露一事,前臺員工對記者說,“這個事情很多天了,他們(高管)也沒太大的反應”,“大家都知道什么情況,所以說沒事的。”
該員工告訴記者,公司董事長、董事會秘書正在出差,沒有辦法接受采訪,其承諾會聯系董秘讓其給記者回電,截至發稿前,記者沒接到相關電話。
7月8日新華視點報道稱,山東臨沂警方接到群眾舉報,轄區QQ群里有人兜售公民個人信息。警方查明該案涉嫌侵犯數百億條個人信息,11家公司涉案,其中有3家公司涉嫌單位犯罪。案件涉及的數據隱私性高,包含了手機號、上網基站代碼等40余項信息要素,甚至部分數據能直接進入公民個人賬號主頁,危害巨大。
報道顯示,數據堂在8個月內日均傳輸公民個人信息1億3千萬余條,累計傳輸數據壓縮后達4000GB左右。該視頻新聞有鏡頭顯示,身穿制服的警察出現在有數據堂標志的辦工場所中進行檢查。
數據堂7月11日發公告稱,該案是公司某一客戶因出售公民個人信息被公安機關調查,公司個別相關人員牽連涉案接受調查。
“涉及業務為公司已經關停的零星非主營業務,不會對公司主營業務構成重大不利影響”,數據堂在公告中稱。
數據堂稱,公訴中數據堂未被列為被告,該案已于2018年5月9日和7月10日兩次開庭審理完畢,均未宣判。
眾包采集信息,0.2元就能買一條病例信息
數據堂在2014年成功掛牌新三板,此后便以“數據第一股”自居。記者在數據堂看到,公司里掛著“大數據共享交易和眾包服務平臺”“大數據運營中心”等字牌。
數據堂涉及的數據種類非常多。在2016年年報中,數據堂稱擁有超過2000TB的數據,涵蓋金融、信用、醫療、交通等數十大領域的大規模數據。簡單來說,人們發布的每一條微博,在互聯網公開上傳的每一張照片,發布的每一條評論,都有可能成為數據堂數據交易及應用平臺上的信息。
數據堂是如何獲取這些信息的呢?
除了一些公共機構公開共享和通過技術手段在網絡采集外,數據堂獲取數據的來源還包括通過眾包采集和供應商提供。
新京報記者了解到,數據堂曾經開發了一款APP,就是通過眾包的方式來獲取到自己想要的數據。這款名為“眾客堂”的APP,主要是用來下發數據堂所需要的數據任務,再由個人或者團隊進行聲音、圖像、文本等數據的采集,并通過該APP上傳,最終獲得相應報酬。
文章轉自新京報
原文鏈接://mp.weixin.qq.com/s/hbWRkWPcjRgGDsAUOBxd2A
7月15日,新京報記者安裝了眾客堂APP,在任務中心看到,眾客堂發布的采集任務包括人臉照片采集、不同國家的語音采集、我國不同地區方言的語音采集、車輛行駛信息采集等,參與這些采集任務的人數有的能達到好幾千人。
在一項個人就能參與的“病例圖片采集”任務中,需要任務執行者用手機拍攝病例并上傳,要求病例內容拍攝完整且必須是手寫。對于病例的來源等,任務并沒有提出具體要求。
記者注意到,每上傳一張病例圖片,審核通過后能獲得0.2元的報酬,該條任務下的信息顯示,已經有3196人參與了該任務。
這樣的眾包采集數據堂很早就有,據數據堂眾包網站介紹,2012年2月,其就推出“發數據,得堂幣”活動。但“眾客堂”APP在應用系統中顯示的最新更新時間是2017年9月,部分對應的鏈接點擊進去顯示為“停機維護”,記者無法確定該平臺是否仍然在運行。
去年虧損擴大近5倍,百度、華為等是大客戶
7月11日,數據堂公告中稱,公司已對涉案業務予以整改和停止,并對相關業務進行了梳理。
數據堂旗下主要有AI線、營銷線、金融線、財經線4種產品類型。2016年,這4種產品類型的收入占比分別為50.40%、0.39%、18.62%、30.59%。到了2017年,上述4類產品的收入占比變為75.66%、0.71%、12.19%、11.44%。
2017年,數據堂對金融線、營銷線的業務均予以關停,這些業務涉及的資產包括預付賬款370萬元、存貨3546萬元、固定資產85萬元,上述處理對公司合并報表層面的利潤總額影響4001萬元。
四項產品中關停兩項,讓數據堂2017年業績大幅下滑。2016年數據堂凈利潤為-1693.55萬元,2017年這一數字為-9776萬元,虧損擴大了將近5倍。
“但凡界定不清的業務均予以關停,使公司上下游客戶均有所減少,業務規模受到較大影響”,數據堂在2017年年報中這樣解釋。
部分業務的關停,也改變了數據堂的發展策略。此前數據堂稱,2018年公司將專注于人工智能大數據領域的業務,不斷加大在該領域的投入。
值得注意的是,近年來數據堂的前五大客戶中,還常常出現華為、百度、三星、谷歌、騰訊等公司的身影。2017年前五大客戶中,對華為、百度、三星、谷歌的銷售占比分別達到了9.487%、6.744%、4.837%、4.659%。
此外,數據堂還曾與淘寶簽訂《中英文語音數據》協議,為阿里巴巴集團提供中文手機語音、英文手機語音、粵語手機語音等數據;與搜狗簽訂《海量語音數據處理》協議,為搜狗科技提供海量語音數據處理解決方案。
截至2018年3月底,數據堂總資產為2億元,歸屬于掛牌公司股東的凈資產為1.9億元。今年一季度,公司營業收入為1488萬元,凈利潤為-200萬元。(本文源自新京報,記者:李云琦。)
愿你所有幸運,都不期而遇;
愿你所有美好,都如約而至。
愿你所求皆如愿,所行皆坦途。