2025年09月29日玄貓（BlackCat）

決策樹模型提升商業預測準確性

本文探討如何運用決策樹模型提升商業預測準確性，特別是如何識別對行銷活動真正有增量反應的客戶。透過 R 語言實作案例，演示如何建立根據測試組和控制組的預測模型，並藉由比較兩者預測分數來評估行銷活動的增量效益，進而最佳化行銷策略及資源組態。

商業分析機器學習

決策樹 R語言預測模型提升模型增量模型客戶行為

商業環境中，準確預測客戶行為至關重要。決策樹模型提供直觀易懂的預測方法，有效協助企業根據客戶屬性進行精準行銷。然而，傳統預測模型難以區分哪些客戶受行銷活動影響而產生購買行為，哪些客戶本來就會購買。提升模型則能有效解決此問題，找出真正受行銷活動影響而產生增量價值的客戶。透過建立根據測試組和控制組的兩個模型，並比較兩組的預測分數差異，即可識別出受行銷活動影響的客戶，進而最佳化行銷資源組態，提升投資回報率。

歡迎來到玄貓的高科技理論與商業養成系統指引

在這個章節中，我們將探討如何使用 R 進行決策樹分析。決策樹是一種機器學習技術，能夠根據獨立變數預測依賴變數。與線性和邏輯迴歸不同，決策樹可以直觀地顯示變數之間的關係。

決策樹的基礎

決策樹可以用於預測連續變數或二元變數。在這個章節中，我們只會關注分類別樹。決策樹的優點在於它可以根據變數的不同值進行分裂，從而得到易於解釋和應用的結果。

例如，假設我們要建立一個模型來預測某人是否會違約貸款。決策樹可以根據 FICO 評分和之前是否違約等變數進行分裂。結果顯示，如果某人之前曾經違約，那麼他再次違約的機率是 100%。如果某人之前沒有違約，但他的 FICO 評分低於 705.5，那麼他違約的機率是 25%。

使用 R 進行決策樹分析

R 中有許多套件可用於決策樹分析，包括 rpart、party、randomForest、randomForestSRC、C50、LogicForest 和 BayesTree 等。為了簡單起見，我們將使用 tree 套件。

首先，我們需要載入 tree 套件和資料集。然後，我們可以使用 tree 函式建立決策樹模型。方法引數設定為 “class”，表示這是一個分類別問題。

library(tree)
tree_results = tree(formula_1, method = "class", data = c12_mydata_train)
summary(tree_results)
plot(tree_results)

這些程式碼將輸出決策樹模型的摘要和視覺化結果。

看圖說話：

在這個流程圖中，我們可以看到建立決策樹模型的步驟。首先，我們需要載入套件和資料集。然後，我們可以使用 tree 函式建立決策樹模型。最後，我們可以輸出模型摘要和視覺化結果，並解釋結果。

歡迎下次光臨玄貓的高科技理論與商業養成系統指引！

高科技理論與商業養成系統指引：決策樹模型與多元邏輯迴歸

在商業領域中，預測客戶行為和選擇最有效的行銷通路是至關重要的。決策樹模型和多元邏輯迴歸是兩種常用的統計方法，分別用於預測二元結果和多類別結果。在本文中，我們將探討如何使用決策樹模型和多元邏輯迴歸來預測客戶轉換率和最可能的轉換通路。

決策樹模型

決策樹模型是一種非引數統計方法，根據輸入變數的條件對資料進行分類別。它可以用於預測二元結果，例如客戶是否會轉換。決策樹模型的優點在於它可以處理大量的輸入變數，並且可以自動選擇最重要的變數。

在我們的例子中，我們使用決策樹模型來預測客戶轉換率。結果表明，女性、已婚、白領階層和年齡在54.5歲以上的客戶具有較高的轉換率。這些結果可以用於瞭解客戶的特徵和行為，並且可以用於選擇最有效的行銷通路。

多元邏輯迴歸

多元邏輯迴歸是一種統計方法，根據輸入變數的條件對資料進行分類別。它可以用於預測多類別結果，例如客戶最可能的轉換通路。多元邏輯迴歸的優點在於它可以處理大量的輸入變數，並且可以自動選擇最重要的變數。

在我們的例子中，我們使用多元邏輯迴歸來預測客戶最可能的轉換通路。結果表明，客戶的轉換通路取決於多個因素，包括性別、婚姻狀態、年齡和收入等。這些結果可以用於瞭解客戶的偏好和行為，並且可以用於選擇最有效的行銷通路。

看圖說話：

這個流程圖展示瞭如何使用決策樹模型和多元邏輯迴歸來預測客戶轉換率和最可能的轉換通路。首先，企業需要收集客戶資料，然後使用決策樹模型來預測轉換率。接下來，企業可以使用多元邏輯迴歸來預測轉換通路。最後，企業可以根據預測結果制定行銷策略。

Plantuml 圖表程式碼：

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title 決策樹商業預測與提升模型架構

package "決策樹模型" {
    component [分裂條件] as split
    component [節點分類] as node
    component [葉節點預測] as leaf
}

package "提升模型設計" {
    component [測試組模型] as test
    component [控制組模型] as control
    component [分數差異] as diff
}

package "客戶識別" {
    component [增量客戶] as incr
    component [自然購買者] as natural
    component [行銷敏感者] as sensitive
}

package "商業應用" {
    component [R語言 tree 套件] as r_tree
    component [FICO 評分分析] as fico
    component [違約預測] as default
    component [ROI 最佳化] as roi
}

split --> node : 變數分裂
node --> leaf : 分類結果
leaf --> test : 預測分數

test --> diff : 測試組分數
control --> diff : 控制組分數
diff --> incr : 分數差 > 0

incr --> sensitive : 識別
natural --> roi : 排除
sensitive --> roi : 目標客戶

r_tree --> fico : 分析
fico --> default : 預測

note right of diff
  增量 = 測試組 - 控制組
  正值表示行銷有效
end note

note bottom of roi
  最佳化資源配置
  提升投資回報率
end note

skinparam dummy {
}
  - 特徵選擇
  - 特徵轉換
  - 降維處理
end note

note right of eval
  評估指標：
  - 準確率/召回率
  - F1 Score
  - AUC-ROC
end note

@enduml

這個 Plantuml 圖表展示瞭如何使用決策樹模型和多元邏輯迴歸來預測客戶轉換率和最可能的轉換通路。圖表中，每個步驟都有明確的輸入和輸出，展示瞭如何使用這些方法來取得預測結果。

第十三章：提升模型

提升模型概述

預測模型，如前一章所述，如果您對預測某人的一般行為感興趣，則很有用。但是，如果我們的主要關注點是增量性呢？假設我們向一組客戶發送了一個優惠，20% 的客戶兌換了優惠，但銷售額只增加了 5%。這些回應者中有一定比例原本就會與我們購物，因此向他們提供優惠並沒有改變他們的行為，只是損害了利潤。我們想要知道的是，哪些客戶原本不打算與我們購物，但在被優惠吸引後卻這樣做了。

提升模型（也稱為凈提升或增量模型）是一種在測試和控制環境中開發的預測模型。結合根據這些不同群體建立的模型，我們可以建立一個預測評分，告訴我們某人在接收到某種治療（即行銷）後採取行動的可能性。

提升模型的目標

提升模型的目標是識別出那些原本不會購買但在接收到優惠後才購買的客戶。這樣，我們就可以只向這些客戶提供優惠，而不需要向原本就會購買的客戶提供。

建立提升模型的步驟

根據控制組建立預測模型，建立一個基線預測，預測某人在沒有任何行銷的情況下執行所需動作的可能性。
根據測試組建立預測模型，預測某人在沒有任何行銷的情況下執行所需動作的可能性，或因行銷影響而執行所需動作的可能性。
將這兩個模型應用於測試組。每個個體都會根據控制組模型和測試組模型獲得一個評分。如果您從測試組評分中減去控制組評分，這將告訴您行銷影響的增量回應。

使用 R 進行提升模型

案例研究

公司希望專注於獲得更多增量客戶。管理階層願意提供強大的優惠來做到這一點，但我們的任務是建立一個模型，以識別最有可能受到玄貓影響的客戶。

資料集

我們將使用的資料集為 Apr_Test_Results.csv，它包含了四月份的一個測試的客戶資料。欄位 test_group 表示客戶是否在測試組或控制組；測試組中的每個客戶都收到了優惠，控制組中的每個客戶都沒有收到優惠。

setwd("C:\\Desktop\\ANALYSIS")
c13_mydata_1 <- read.csv("Apr_Test_Results.csv", header = TRUE)
print(head(c13_mydata_1))
dim(c13_mydata_1)
summary(c13_mydata_1)
sapply(c13_mydata_1, class)

建立二元依賴變數

在建立模型之前，需要建立一個二元依賴變數。變數 purchase 表示是否有人進行了購買，定義為銷售額大於零的任何情況。

library(sqldf)
c13_mydata_2 <- sqldf("
  select customer_id, test_group, tot_sls,
         female, married, children, NumChildren,
         Population_K, HouseHolds, HHAveSize,
         pop_0_25, pop_26_45, pop_46_65, pop_65_plus,
         HHIncomeMed, WhtCollarOcc, BluCollarOcc, cust_age,
         case when tot_sls > 0 then 1 else 0 end as purchase
  from c13_mydata_1 A1
")
print(head(c13_mydata_2))

資料集分割與預處理

為了建立兩個獨立的預測模型，分別適用於測試組和控制組，我們需要將資料集分割成兩部分。這樣做可以讓我們更好地瞭解每個組別的特徵和行為。

首先，我們使用 subset 函式從原始資料集 c13_mydata_2 中分別抽取測試組和控制組的資料，分別儲存在 mydata_T 和 mydata_C 中。

mydata_T <- subset(c13_mydata_2, test_group == 1)
mydata_C <- subset(c13_mydata_2, test_group == 0)

接下來，我們使用 summary 函式來檢視每個資料集的摘要統計資訊，包括最小值、最大值、平均值等。

summary(mydata_T)
summary(mydata_C)

透過比較兩個資料集的摘要統計資訊，我們可以發現測試組和控制組在某些變數上的平均值存在差異。例如，測試組的平均銷售額為 $29.73，而控制組的平均銷售額為 $23.34。同樣，測試組的購買率為 21.15%，而控制組的購買率為 17.38%。這些差異表明測試組和控制組之間可能存在某些不同之處。

從內在修養到外在表現的全面檢視顯示，提升模型在精準行銷和資源最佳化方面展現了其獨特價值。透過多維比較分析，相較於傳統的預測模型，提升模型更側重於識別受特定行銷活動影響而產生增量價值的客戶，避免資源浪費，實作投資回報最大化。然而，建立提升模型的過程也存在挑戰，例如需要更精細的資料收集和分析，以及對測試組和控制組的嚴格區分。此外，模型的準確性也受到資料品質和模型選擇的影響。展望未來，隨著機器學習和人工智慧技術的發展，提升模型將在更廣泛的商業應用場景中發揮作用，例如客戶關係管理、產品推薦和價格最佳化等。玄貓認為，對於追求精益化管理和效能提升的高階管理者而言，掌握提升模型的應用將是未來提升核心競爭力的關鍵策略。