意向大數據分析-資料視覺化

意向大數據分析-資料視覺化

李玫郁(aphoebusli)

意向大數據分析方法可以適用於同時出現文字與數字的資料。然後透過計算每個層次的機率與每個層次之間所形成的條件機率,我們可以繪製出樹狀圖來顯示每個可能路徑。樹狀圖會因為層次的排序不同而不同,所以這樣的樹狀圖會非常龐大的,計算起來也非常麻煩。


下面,我用三個層次的例子來說明意向大數據分析方法的使用。



資料內容

隨機調查一萬個人,記錄他的性別、居住區域、年所得(萬元)

男  北     52.4863746029

男  南     123.4805768599

女  北     331.9074010055

男  北     243.1755663228

男  南     180.8876075778

男  北     158.3195187234

男  北     193.4245893981

男  北     236.3479604666

男  南     146.9041270653

女  北     228.9483905483

男  北     187.6686910211

女  北     358.9686625266

男  南     147.0440013560

女  北     491.8759236388

男  南     79.1264377265

男  北     192.4260346172

男  北     248.8099615308

女  南     213.1973544124

.......................



分析工具

最簡單的方式是使用Excel的樞紐分析歸納出兩兩交集或三三交集的機率,並且使用圖表功能繪製出資料視覺化圖像。


【分析結果】從層次1→層次2→層次3

兩兩交集的機率

P(男 and 北)=0.250600000(樣本個數=2506)

P(男 and 南)=0.247300000(樣本個數=2473)

P(女 and 北)=0.251700000(樣本個數=2517)

P(女 and 南)=0.250400000(樣本個數=2504)

最大值發生在 P(女 and 北)=0.251700000

最小值發生在 P(男 and 南)=0.247300000





P(北 and X3分類=    20.5286724004)=0.000200000(樣本個數=2)

P(北 and X3分類=    54.3235262719)=0.001900000(樣本個數=19)

P(北 and X3分類=    88.1183801433)=0.009600000(樣本個數=96)

P(北 and X3分類=   121.9132340148)=0.029300000(樣本個數=293)

P(北 and X3分類=   155.7080878862)=0.047000000(樣本個數=470)

P(北 and X3分類=   189.5029417576)=0.062600000(樣本個數=626)

P(北 and X3分類=   223.2977956291)=0.068000000(樣本個數=680)

P(北 and X3分類=   257.0926495005)=0.069600000(樣本個數=696)

P(北 and X3分類=   290.8875033720)=0.062900000(樣本個數=629)

P(北 and X3分類=   324.6823572434)=0.051400000(樣本個數=514)

P(北 and X3分類=   358.4772111149)=0.037400000(樣本個數=374)

P(北 and X3分類=   392.2720649863)=0.025800000(樣本個數=258)

P(北 and X3分類=   426.0669188578)=0.015700000(樣本個數=157)

P(北 and X3分類=   459.8617727292)=0.010300000(樣本個數=103)

P(北 and X3分類=   493.6566266007)=0.004800000(樣本個數=48)

P(北 and X3分類=   527.4514804721)=0.002900000(樣本個數=29)

P(北 and X3分類=   561.2463343435)=0.001900000(樣本個數=19)

P(北 and X3分類=   595.0411882150)=0.000400000(樣本個數=4)

P(北 and X3分類=   628.8360420864)=0.000500000(樣本個數=5)

P(北 and X3分類=   662.6308959579)=0.000100000(樣本個數=1)


P(南 and X3分類=    20.5286724004)=0.008400000(樣本個數=84)

P(南 and X3分類=    54.3235262719)=0.035900000(樣本個數=359)

P(南 and X3分類=    88.1183801433)=0.068900000(樣本個數=689)

P(南 and X3分類=   121.9132340148)=0.094100000(樣本個數=941)

P(南 and X3分類=   155.7080878862)=0.085200000(樣本個數=852)

P(南 and X3分類=   189.5029417576)=0.078600000(樣本個數=786)

P(南 and X3分類=   223.2977956291)=0.056300000(樣本個數=563)

P(南 and X3分類=   257.0926495005)=0.033500000(樣本個數=335)

P(南 and X3分類=   290.8875033720)=0.017000000(樣本個數=170)

P(南 and X3分類=   324.6823572434)=0.010400000(樣本個數=104)

P(南 and X3分類=   358.4772111149)=0.005800000(樣本個數=58)

P(南 and X3分類=   392.2720649863)=0.001500000(樣本個數=15)

P(南 and X3分類=   426.0669188578)=0.001400000(樣本個數=14)

P(南 and X3分類=   459.8617727292)=0.000600000(樣本個數=6)

P(南 and X3分類=   527.4514804721)=0.000100000(樣本個數=1)

最大值發生在 P(女 and 北)=0.251700000 (眾數)

最小值發生在 P(南 and X3分類=   493.6566266007)=0.000000000


資料視覺化圖像




三三交集機率

P(男 and 北 and X3分類=    20.5286724004)=0.000200000(樣本個數=2)

P(男 and 北 and X3分類=    54.3235262719)=0.001900000(樣本個數=19)

P(男 and 北 and X3分類=    88.1183801433)=0.009600000(樣本個數=96)

P(男 and 北 and X3分類=   121.9132340148)=0.029300000(樣本個數=293)

P(男 and 北 and X3分類=   155.7080878862)=0.047000000(樣本個數=470)

P(男 and 北 and X3分類=   189.5029417576)=0.062400000(樣本個數=624)

P(男 and 北 and X3分類=   223.2977956291)=0.054000000(樣本個數=540)

P(男 and 北 and X3分類=   257.0926495005)=0.039000000(樣本個數=390)

P(男 and 北 and X3分類=   290.8875033720)=0.007200000(樣本個數=72)


P(男 and 南 and X3分類=    20.5286724004)=0.008400000(樣本個數=84)

P(男 and 南 and X3分類=    54.3235262719)=0.035900000(樣本個數=359)

P(男 and 南 and X3分類=    88.1183801433)=0.068900000(樣本個數=689)

P(男 and 南 and X3分類=   121.9132340148)=0.086400000(樣本個數=864)

P(男 and 南 and X3分類=   155.7080878862)=0.037600000(樣本個數=376)

P(男 and 南 and X3分類=   189.5029417576)=0.010100000(樣本個數=101)


P(女 and 北 and X3分類=   189.5029417576)=0.000200000(樣本個數=2)

P(女 and 北 and X3分類=   223.2977956291)=0.014000000(樣本個數=140)

P(女 and 北 and X3分類=   257.0926495005)=0.030600000(樣本個數=306)

P(女 and 北 and X3分類=   290.8875033720)=0.055700000(樣本個數=557)

P(女 and 北 and X3分類=   324.6823572434)=0.051400000(樣本個數=514)

P(女 and 北 and X3分類=   358.4772111149)=0.037400000(樣本個數=374)

P(女 and 北 and X3分類=   392.2720649863)=0.025800000(樣本個數=258)

P(女 and 北 and X3分類=   426.0669188578)=0.015700000(樣本個數=157)

P(女 and 北 and X3分類=   459.8617727292)=0.010300000(樣本個數=103)

P(女 and 北 and X3分類=   493.6566266007)=0.004800000(樣本個數=48)

P(女 and 北 and X3分類=   527.4514804721)=0.002900000(樣本個數=29)

P(女 and 北 and X3分類=   561.2463343435)=0.001900000(樣本個數=19)

P(女 and 北 and X3分類=   595.0411882150)=0.000400000(樣本個數=4)

P(女 and 北 and X3分類=   628.8360420864)=0.000500000(樣本個數=5)

P(女 and 北 and X3分類=   662.6308959579)=0.000100000(樣本個數=1)


P(女 and 南 and X3分類=   121.9132340148)=0.007700000(樣本個數=77)

P(女 and 南 and X3分類=   155.7080878862)=0.047600000(樣本個數=476)

P(女 and 南 and X3分類=   189.5029417576)=0.068500000(樣本個數=685)

P(女 and 南 and X3分類=   223.2977956291)=0.056300000(樣本個數=563)

P(女 and 南 and X3分類=   257.0926495005)=0.033500000(樣本個數=335)

P(女 and 南 and X3分類=   290.8875033720)=0.017000000(樣本個數=170)

P(女 and 南 and X3分類=   324.6823572434)=0.010400000(樣本個數=104)

P(女 and 南 and X3分類=   358.4772111149)=0.005800000(樣本個數=58)

P(女 and 南 and X3分類=   392.2720649863)=0.001500000(樣本個數=15)

P(女 and 南 and X3分類=   426.0669188578)=0.001400000(樣本個數=14)

P(女 and 南 and X3分類=   459.8617727292)=0.000600000(樣本個數=6)

P(女 and 南 and X3分類=   527.4514804721)=0.000100000(樣本個數=1)


最大值發生在 P(男 and 南 and X3分類=   121.9132340148)=0.086400000 (眾數)

最小值發生在 P(男 and 北 and X3分類=   324.6823572434)=0.000000000


資料視覺化圖像








Report Page