分類問題之損失函數

維基百科，自由的百科全書

此條目需要編修，以確保文法、用詞、語氣、格式、標點等使用恰當。 (2022年6月1日)
請按照校對指引，幫助編輯這個條目。（幫助、討論）

此條目包含過多行話或專業術語，可能需要簡化或提出進一步解釋。 (2022年6月1日)
請在討論頁中發表對於本議題的看法，並移除或解釋本條目中的行話。

各種代理損失函數的曲線。藍色為0–1指示函數，綠色為平方損失函數，紫色為鉸鏈損失函數，黃色為邏輯損失函數。注意所有代理損失函數對 $y = f (x = 0)$ 均給出1的懲罰。

在機器學習和最佳化領域中，分類問題之損失函數可以用來表達預測不準確之程度，其中分類問題主要是用來判斷所偵測到的物件屬於什麼類別。將一個向量空間 $X$ 做為所有的輸入值，而向量空間 $Y=\{-1,1\}$ 做為所有的輸出值。我們希望能夠找到最佳的公式 $f:X\rightarrow \Re$ 將 ${\vec {x}}$ 映射到 $y$ ^[1]。然而，由於信息不完整、雜訊、計算過程中的非確定性模塊等因素，有可能會有相同的輸入值 ${\vec {x}}$ 映射到不同的輸出值 $y$ ^[2]。因此，這個學習過程的目的就是要最小化預期風險（更詳細的介紹參見統計學習理論），預期風險之定義為：

I[f]=\textstyle \int _{X\times Y}^{}\displaystyle V(f({\vec {x}},y))p({\vec {x}},y)d{\vec {x}}dy

其中 $V(f({\vec {x}},y))$ 即損失函數，而 $p({\vec {x}},y)$ 為機率密度函數。而實作上概率分布 $p({\vec {x}},y)$ 通常是未知的，因此我們使用由數據樣本空間中取出的 $n$ 個獨立且同分布（i.i.d.）的樣本點

S=\{({\vec {x_{1}}},y_{1}),...,({\vec {x_{n}}},y_{n})\}

作為訓練集，將樣本空間所得到的經驗風險做為預期風險的替代，其定義為：

I_{S}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f({\vec {x_{i}}},y_{i}))

基於分類問題的二元性，可定義0-1函數做為匹配值之基準。因此損失函數為：

V(f({\vec {x}},y))=H(-yf({\vec {x}}))

其中 $H$ 為步階函數。然而損失函數並不是凸函數或平滑函數，是一種NP-hard的問題，因此做為替代，需要使用可以追蹤的機器學習演算法（透過凸損失函數）。

分類問題之界線

使用貝式定理，可以基於問題的二元性最佳化映射公式 $f^{*}$ 為：

f^{*}({\vec {x}})={\begin{cases}1,&{\text{if }}p(1\mid {\vec {x}})>p(-1\mid {\vec {x}})\\-1,&{\text{if }}p(1\mid {\vec {x}})<p(-1\mid {\vec {x}})\end{cases}}

當 $p(1\mid {\vec {x}})\neq p(-1\mid {\vec {x}})$

簡化分類問題預期風險

{\begin{alignedat}{4}I[f(x)]&=\int _{X\times Y}^{}V(f({\vec {x}},y))p({\vec {x}},y)d{\vec {x}}dy\\&=\int _{X}^{}\int _{Y}^{}V(f({\vec {x}},y))p({\vec {x}},y)p({\vec {x}})dyd{\vec {x}}\\&=\int _{X}^{}[V(-f({\vec {x}})p(1\mid x)+V(f({\vec {x}})p(-1\mid x)]p({\vec {x}})d{\vec {x}}\\&=\int _{X}^{}[V(-f({\vec {x}})p(1\mid x)+V(f({\vec {x}})(1-p(1\mid x))]p({\vec {x}})d{\vec {x}}\end{alignedat}}

平方損失

V(f({\vec {x}},y))=(1-yf({\vec {x}}))^{2}

平方損失凸且平滑，但容易過度懲罰錯誤預測，導致收斂速度比邏輯損失和鏈結損失慢。它的優點為有助於簡化交叉驗證之正則化（regularization）。

最小化預期風險之映射函數為：

f_{Square}^{*}=2p(1\mid x)-1

鏈結損失

V(f({\vec {x}}),y)=\max(0,1-yf({\vec {x}}))=|1-yf({\vec {x}})|_{+}

鏈結損失公式等同於支持向量機（SVM）的損失公式。鏈結損失凸但不平滑（在 $yf({\vec {x}}))=1$ 不可微分），因此不適用於梯度下降法和隨機梯度下降法，但適用次梯度下降法。最小化預期風險之映射函數為：

f_{Square}^{*}=2p(1\mid x)-1

廣義平滑鏈結損失

f_{\alpha }^{*}(z)\;=\;{\begin{cases}{\frac {\alpha }{\alpha +1}}&{\text{if }}z<0\\{\frac {1}{\alpha +1}}z^{\alpha +1}-z+{\frac {\alpha }{\alpha +1}}&{\text{if }}0<z<1\\0&{\text{if }}z\geq 1\end{cases}}

其中 $z=yf({\vec {x}})$

邏輯損失

V(f({\vec {x}}),y)={\frac {1}{\ln 2}}\ln(1+e^{-yf({\vec {x}})})

適用於梯度下降法，但不會對錯誤預測做懲罰。最小化預期風險之映射函數為：

f_{\text{Logistic}}^{*}=\ln \left({\frac {p(1\mid x)}{1-p(1\mid x)}}\right).

交叉熵損失

V(f({\vec {x}}),t)=-t\ln(f({\vec {x}}))-(1-t)\ln(1-f({\vec {x}}))

其中 $t=(1+y)/2$ so that $t\in \{0,1\}$ 屬於凸函數，適用於隨機梯度下降法。

指數損失

V(f({\vec {x}}),y)=e^{-\beta yf({\vec {x}})}

參考資料

^ Shen, Yi, Loss Functions For Binary Classification and Class Probability Estimation (PDF), University of Pennsylvania, 2005 [6 December 2014], （原始內容存檔 (PDF)於2019-06-14）
^ Rosasco, Lorenzo; Poggio, Tomaso, A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes, Manuscript, 2014

可微分計算

可微分編程
自動微分
張量微積分（英語：Tensor calculus）
信息幾何
統計流形
神經形態工程（英語：Neuromorphic engineering）
模式識別
運算學習理論（英語：Computational learning theory）
歸納偏置

概念

梯度下降
- SGD（英語：Stochastic gradient descent）
聚類
回歸
- 過適
幻覺
對抗（英語：Adversarial machine learning）
注意力
卷積
損失函數
反向傳播
激勵函數
- softmax
- sigmoid
- ReLU
正則化
資料集
擴散（英語：Diffusion process）
自回歸

應用

硬件

TPU
VPU
IPU（英語：Graphcore）
憶阻器
SpiNNaker（英語：SpiNNaker）

軟件庫

Theano
TensorFlow
- Keras
PyTorch
JAX
Flux.jl（英語：Flux (machine-learning framework)）

實現

視覺·語音	AlexNet WaveNet 人像合成手寫辨識 OCR 語音合成語音辨識臉部辨識 AlphaFold DALL-E Midjourney Stable Diffusion Sora Whisper（英語：Whisper (speech recognition system)）
自然語言	Word2vec Seq2seq BERT LaMDA Bard NMT 辯手項目（英語：Project Debater）沃森 GPT GPT-1 GPT-2 GPT-3 GPT-4 GPT-J（英語：GPT-J） ChatGPT 文心一言 Chinchilla AI（英語：Chinchilla AI） PaLM（英語：PaLM） BLOOM（英語：BLOOM (language model)） LLaMA TAIDE
決策	AlphaGo Q學習 SARSA OpenAI Five（英語：OpenAI Five）自動駕駛 MuZero 行動選擇（英語：Action selection） Auto-GPT 機器人控制（英語：Robot control）

人物

組織

架構

多層感知器（MLP）
循環神經網絡（RNN）
長短期記憶（LSTM）
門控循環單元（英語：Gated recurrent unit）（GRU）
卷積神經網絡（CNN）
殘差神經網絡（ResNet）
變換器
自編碼器
變分自編碼器（VAE）
生成對抗網絡（GAN）
圖神經網絡（英語：Graph neural network）（GNN）
迴響狀態網絡（英語：Echo state network）（ESN）
神經圖靈機（NTM）
可微分神經計算機（英語：Differentiable neural computer）（DNC）

主題
- 計算機編程
- 技術
分類
- 人工神經網絡
- 機器學習

取自「https://zh.wikipedia.org/w/index.php?title=分類問題之損失函數&oldid=78562539」

分類：

機器學習演算法

隱藏分類：