Roc Curve Là Gì

     

ROC (Receiver operating characteristic) là 1 đồ thị được thực hiện khá phổ biến trong validation các mã sản phẩm phân nhiều loại nhị phân. Đường cong này được tạo nên ra bằng cách biểu diễn phần trăm dự báo true positive rate (TPR) dựa trên phần trăm dự báo failse positive rate (FPR) tại các ngưỡng Threshold khác nhau. Trong machine learning bọn họ gọi true positive rate là độ nhạy sensitivity tức là xác xuất đoán trước đúng một sự kiện là positive. Tỷ lệ false positive rate là probability of false alarm (tỷ lệ chú ý sai, một sự khiếu nại là negative nhưng mà coi nó là positive) và xác suất này khớp ứng với xác xuất mắc sai lạc loại II đã được trình diễn bên dưới. Vì thế ROC curve sẽ bộc lộ mối quan tiền hệ, sự tấn công đổi và chân thành và ý nghĩa lựa lựa chọn 1 model cân xứng của độ nhạy và tỷ lệ cảnh báo sai. Nhằm tạo ra một chiếc nhìn tổng quan duy nhất về ROC, nội dung bài viết này sẽ ra mắt đến độc giả thế như thế nào là ROC, ý nghĩa sâu sắc học thuật và biện pháp lựa chọn model dựa trên ROC.

Bạn đang xem: Roc curve là gì


I. Sai lầm loại I, II vào dự báo.

Xác xuất mắc sai trái loại I và nhiều loại II trong dự báo được nhắc đến khá nhiều trong những tài liệu thống kê học và đấy là những loại sai trái đặc trưng cơ bạn dạng trong các mã sản phẩm dự báo. Giả sử bọn họ xét một mã sản phẩm dự báo sự kiện với 2 kỹ năng positive (tích cực) cùng negative (tiêu cực). Các kết quả của mã sản phẩm xảy ra sẽ lâm vào hoàn cảnh 4 team sau:

TP: True positive, dự báo đúng sự khiếu nại là positive vào trường hợp thực tiễn là positive.FP: False positive, dự đoán sai sự khiếu nại là positive trong trường hợp thực tế là negative.TN: True negative, dự báo đúng sự khiếu nại là negative vào trường hợp thực tiễn là negative.FN: False negative, đoán trước sai sự khiếu nại là negative trong trường hợp thực tế là positive.

TP và TN là hồ hết case dự đoán đúng. Còn FP, FN là phần lớn case đoán trước sai. FN tương đương với mắc sai lầm loại I (Bác vứt sự khiếu nại là positive cùng gán cho nó là negative) và FP tương tự với mắc sai trái loại II (Chấp dấn một sự kiện là positive khi thực chất sự kiện với negative). Thường thì xác xuất mắc sai lạc loại II sẽ gây nên hậu quả béo hơn. Mục đích chính của những model chuẩn đoán, cảnh báo hay quản trị khủng hoảng rủi ro là chú ý sớm, phòng ngừa, loại trừ các sự kiện xấu nên việc tìm chính xác được sự khiếu nại negative được ưu tiên hơn positive. Để phát âm hơn lý do mức độ khủng hoảng rủi ro của sai trái loại II là cao hơn nữa loại I chúng ta phân tích ví dụ thực tế sau.

Bệnh tiểu mặt đường khá nguy hiểm nhưng xác xuất mắc bệnh tình của loại bệnh này so với tỷ lệ số lượng dân sinh là vô cùng thấp chẳng hạn 1:10000. Một người dân có các bộc lộ tiểu mặt đường và triển khai các xét nghiệm. Sau thời điểm xem kết quả họ giả định rằng chưng sĩ kết luận sai. Khi ấy có 2 khả năng xảy ra:

Loại I: bản thân dịch nhân hoàn toàn bình thường, chưng sĩ kết luận bệnh nhân bị tiểu đường.

Loại II: người bị bệnh bị tiểu đường nhưng bác bỏ sĩ kết luận trọn vẹn bình thường.

Rõ ràng sai trái loại II gây ra hậu quả lớn hơn vì người bị bệnh không phát hiện sớm bệnh của bản thân để điều trị kịp thời đã dẫn mang đến bệnh phát triển xấu đi. Sai lầm loại I có ảnh hưởng tới chi phí khám chữa căn bệnh nhưng không tác động đến sức mạnh và hậu quả là ít rất lớn hơn.

Xem thêm: Nghĩa Của Từ Demerit Là Gì ? Nghĩa Của Từ Demerit Trong Tiếng Việt

Căn cứ vào tầm khoảng độ rủi ro khủng hoảng này song khi chúng ta sẽ lựa chọn mã sản phẩm dựa bên trên tiêu tiêu chuẩn độ thiệt hại mang về là thấp tuyệt nhất mà chưa hẳn là những chỉ số đo lường và tính toán sức mạnh khỏe của model như AUC, Gini, Accuracy rate. Ví dụ như nếu một mã sản phẩm dự báo nợ xấu người tiêu dùng có xác xuất dự báo đúng mực tốt hơn tuy nhiên khi áp dụng model giá trị nợ xấu sút thiểu của nó thấp hơn một mã sản phẩm khác gồm xác xuất dự báo đúng đắn kém hơn thì vẫn lựa chọn mã sản phẩm thứ 2 bởi mặc dù dự báo nhát hơn về toàn diện và tổng thể (bao có cả trường hợp dự đoán đúng quý khách vỡ nợ với không vỡ lẽ nợ) nhưng tỷ lệ dự báo đúng chuẩn các thích hợp đồng vỡ lẽ nợ của nó cao hơn. Do đó nếu coi xác xuất dự báo và đúng là cố định thì luôn luôn có sự tấn công đổi giữa các việc dự báo đúng những trường hợp tốt và đoán trước đúng nguy cơ tiềm ẩn xấu. Hay nói theo cách khác khi tỷ lệ đúng mực dự báo nguy hại xấu tăng lên thì phần trăm dự báo đúng đắn trường hợp tốt giảm xuống. Do mức độ đặc biệt quan trọng của vấn đề lựa chọn phương châm mô hình là triệu tập vào dự báo nguy cơ xấu hay xuất sắc mà thống kê học chỉ dẫn một vài tham số thống kê giám sát các tỷ lệ dự báo như sensitivity, specificity.


II. Sensitivity, Specitivity và False positive rate

1.Độ nhạy model (sensitivity):

Độ nhạy model còn được gọi là TPR(True positive rate) cho thấy thêm mức độ dự báo đúng đắn trong nhóm sự kiện positive.

Sensitivity = con số sự khiếu nại positive được dự báo đúng là positive/Số lượng sự khiếu nại positive.

2.Độ quánh hiệu (Specificity):

Trái lại với Sensitivity là Specificity được quan niệm là xác suất dự báo đúng đắn trong team sự kiện negative.

Specificity = con số sự khiếu nại negative được dự báo chính xác là negative/số lượng sự kiện negative.

3.Xác xuất mắc sai lạc loại II (False positive rate):

False positive rate kí hiệu là FPR gồm công thức:

FPR = 1-Specificity.

Xem thêm: Tiểu Sử Isaac Sinh Năm Bao Nhiêu, Quê Ở Đâu? Isaac Sinh Năm Bao Nhiêu

Cho biết nút độ dự báo sai một sự kiện khi nó là negative nhưng kết luận là positive. False positive rate chính là tỷ lệ mắc sai trái loại II với là phương châm để các mã sản phẩm quản trị khủng hoảng rủi ro tối thiểu hóa nó. Bảng bên dưới sẽ cho chúng ta hình dung rõ hơn về kiểu cách tính cùng mối tương tác của những chỉ số này.


qqlive