<center id="qkqgy"><optgroup id="qkqgy"></optgroup></center>
  • <menu id="qkqgy"></menu>
    <nav id="qkqgy"></nav>
    <xmp id="qkqgy"><nav id="qkqgy"></nav>
  • <xmp id="qkqgy"><menu id="qkqgy"></menu>
    <menu id="qkqgy"><menu id="qkqgy"></menu></menu>
    <tt id="qkqgy"><tt id="qkqgy"></tt></tt>

  • <>查準率、查全率與 F1 值

    混淆矩陣

    ?先定義混淆矩陣 (Confusion matrix):

    其中:
    ? TP (True Positive):表?將正樣本預測為正例的數?。即真實結果為 1,預測結果也為 1。
    ? TN (True Negative):表?將負樣本預測為負例的數?。即真實結果為 0,預測結果也為 0。
    ? FP (False Positive):表?將負樣本預測為正例的數?。即真實結果為 0,預測結果為 1。
    ? FN (False Negative):表?將正樣本預測為負例的數?。即真實結果為 1,預測結果為 0

    通過混淆矩陣,我們可以獲得錯誤率和準確性的數學定義:

    查準率和查全率的定義與關聯

    現在我們定義查準率和查全率:

    ? 查準率 (Precision):也叫精度,簡記為 P 或 PPV,表?預測為正例的樣本中 ( TP + FP ) 有多少是真正的正樣本 ( TP )。

    ?查全率 (Recall):也叫召回率,簡記為 R 或 TPR,表?在實際真正的正樣本中 ( TP + FN ),預測為正例的樣本數 ( TP )
    所占的?例。

    查準率表?寧愿漏掉,不可錯殺。在識別垃圾郵件中偏向這種思路,因為我們不希望正常郵件 (對應為負樣本,通常將占多數的類別視為負類)
    被誤殺,這樣會造成嚴重的困擾。

    查全率表?寧愿錯殺,不可漏掉。在?融風控領域偏向這種思路,我們希望系統能夠篩選出所有有風險的?為或?戶
    (對應為正樣本),然后交給??鑒別,漏掉?個可能造成災難性后果。

    F1 值

    ?很多時候,我們實際上只希望有?個單?的指標來判斷,?不是在兩個指標之間進?權衡。F1 值是 “查準率和查全率” 的調和平均值,它是?個?為接受的指標:

    但是,F1 值會在查準率和查全率上給予同等的權重。在某些情況下,你可能想偏重?個,因此我們獲得了更?般的 Fβ 值:

    其中 β ?于調整權重,當 β = 1 時兩者權重相同,即為 F1 值。如果認為查準率更重要,則減? β;若認為查全率更重要,則增? β。

    PR 曲線

    但如果你確實想討論查準率/查全率的關系時,PR 曲線 (Precision-Recall Curve) 可以提供幫助。PR 曲線是針對不同閾值的查準率 P
    ( y 軸) 和查全率 R ( x 軸) 的圖。算法對樣本進?分類時都會有置信度,即表?該樣本是正例的概率,?如 99% 的概率認為樣本 A 是正例,或者
    15% 的概率認為樣本 B 是正例。通過選擇合適的閾值 (?如 50%),就對樣本進?劃分,概率?于閾值 (50%) 的就認為是正例,?于閾值 (50%)
    的就是負例。
    因此,我們考慮選擇不同的閾值,并計算不同閾值情況下的查準率和查全率又是如何。具體做法是通過置信度對所有樣本進?排序,再逐個樣本的
    選擇閾值
    (以該樣本的置信度作為閾值),在該樣本之前的都視作正例,該樣本之后的都視作負例。將每?個樣本分別作為劃分閾值,并計算對應的查準率和查全率,就可以繪制 PR
    曲線。

    技術
    下載桌面版
    GitHub
    百度網盤(提取碼:draw)
    Gitee
    云服務器優惠
    阿里云優惠券
    騰訊云優惠券
    華為云優惠券
    站點信息
    問題反饋
    郵箱:ixiaoyang8@qq.com
    QQ群:766591547
    關注微信
    巨胸美乳无码人妻视频