Phương pháp học Bayes Bayesian classification

Similar documents
Phương pháp học cây quyết định Decision Tree

Do yêu cầu công việc mỗi công tác công nhân sẽ làm thêm 1 giờ mỗi ngày, số giờ tăng ca được tính toán:

Phân tích hướngđối tượng UML

Centre for Organisational Effectiveness Trung Tâm vì Hiệu Quả Quản Lý

TCVN TIÊU CHUẨN QUỐC GIA * NATIONAL STANDARD

2016 BÁO CÁO CỦA BAN KIỂM SOÁT REPORT OF SUPERVISORY BOARD

Giới thiệu về Nhãn Sinh thái

Ecological Services Analysis: Some Evidences and Policy Implications for Socio- Economic Development of Ecosystems of Việt Trì City, Phú Thọ Province

WORKSHEET 06: LẬP TRÌNH GIAO DIỆN TRONG MATLAB

TRACE 700 Load Design Mode

MÁY VẬN CHUYỂN LIÊN TỤC

XCS. Reference Guide. XCS Contact Center Plans Comparison

B2C :30: 08:30 08:35 : 08:35 09:50: & 09:50 10:05 : 10:05 10:25 : 10:25 11:00 : 11:00 11:15 : Q&A

PHƯƠNG PHÁP XUYÊN TĨNH, KHẢ NĂNG ỨNG DỤNG VÀ ƯU NHƯỢC ĐIỂM CỦA NÓ CONE PENETRATION TEST METHOD, ADVANTAGE AND DISADVANTAGE

Quy Tắc Ứng Xử. Bộ Quy tắc Ứng xử AMMPL (BME) Đối với Tham nhũng, Lao động Trẻ em và Liên kết Kinh doanh

Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 6 Đại học Đà Nẵng

THÔNG TIN GIẢNG VIÊN

Application Reference Letter

Gluten-Free Certification Program Chương trình chứng nhận sản phẩm không chứa gluten (gluten free)

Thiết kế và thi công cừ biển cốt polymer

Course Revision. Truong Tuan Anh CSE-HCMUT

So, how ERP revolutionise manufacturing process?

NGHIÊN CỨU ẢNH HƯỞNG CỦA ĐIỀU KIỆN SẤY ĐỐI LƯU ĐẾN THÀNH PHẦN DINH DƯỠNG CỦA BỘT NẤM MÈO Auricularia auricula-judae

Nguyên nhân suy thoái môi trường: Thất bại thị trường (quyền sở hữu)

Bảng chú giải thuật ngữ và từ viết tắt ITIL. Việt Nam

HƯỚNG DẪN CỦA OECD/OECD GUIDELINES

CÁC DỰ ÁN LỚN PREMIUM PROJECTS

Chương III CÁC CẤU TRÚC VÀ CHIẾN LƯỢC DÙNG CHO VIỆC TÌM KIẾM TRONG KHÔNG GIAN TRẠNG THÁI

Tel: Fax:

INTERNATIONAL STANDARD 22000

THÔNG TIN VỀ LUẬN VĂN THẠC SĨ

Mục Lục. Phamvana.wordpress.com MỤC LỤC...1 LỜI NÓI ĐẦU...4

CÔNG TY CỔ PHẦN CÔNG NGHỆ THỜI VIỆT VIET AGE TECHNOLOGY JOINT STOCK COMPANY

Kiểu Dữ Liệu, Biến, Lệnh If, Vòng Lặp

Breakout Group Session II. Group Presentations Friday, 27 September

Vietnam Course programme July-August 2007

USING NET PRESENT VALUE METHOD IN ECONOMIC EFFICIENCY ANALYSIS FOR FOREST PLANTATION: PROBLEMS AND SOLUTIONS

Collaborating to Reduce Lead Poisoning in Vietnam

Management and monitoring of air and water pollution by using GIS technology

SỰ SAO CHÉP DNA. DNA là vật chất di truyền. Thí nghiệm về biến nạp của Griffith. DNA mang tín hiệu di truyền. Thí nghiệm của Frederick Griffith (1928)

ĐIỀU KHIỂN LẬP TRÌNH PLC (30 tiết) Mục tiêu

1. GIỚI THIỆU CHUNG Khái niệm dự án. Dự án

VIE: Greater Mekong Subregion Ben Luc-Long Thanh Expressway Project - Tranche 1

HIỆU QUẢ CỦA PHÂN HỮU CƠ TRONG CẢI THIỆN NĂNG SUẤT KHÓM TRÊN ĐẤT PHÈN TẠI HỒNG DÂN- BẠC LIÊU

Sử dụng & theo dõi chống đông máu trong ECMO. Bs. Lê Đức Thắng Đơn vị PT Tim mạch-viện Tim Mạch-Bv Bạch Mai

KHẢO SÁT VIỆC SỬ DỤNG THUỐC TẠI PHÒNG KHÁM NỘI KHỚP KHOA KHÁM BỆNH BỆNH VIỆN AN GIANG TRÊN ĐỐI TƢỢNG BỆNH NHÂN CÓ THẺ BẢO HIỂM Y TẾ

NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ HÀN TỰ ĐỘNG DƯỚI LỚP THUỐC ĐỂ HÀN THÉP HỢP KIM THẤP ĐỘ BỀN CAO Q345B

Giáo trình cơ sở dữ liệu. Biên tập bởi: Ngô Trần Thanh Thảo

CƠ SỞ LÝ THUYẾT HÓA HỌC

DEVELOPMENT OF FORECAST MODEL FOR DOMESTIC WATER DEMAND IN HUNG NHAN TOWN, HUNG HA DISTRICT, THAI BINH PROVINCE

Hoàn thiện chính sách phát triển ngành công nghiệp thức ăn chăn nuôi của Việt Nam

Glossary of auditing terms and Vietnamese equivalents

Ủy ban Basel về Giám sát Ngân hàng Ngân hàng Thanh toán Quốc tế. Các nguyên tắc tăng cường quản trị công ty đối với các tổ chức ngân hàng

Các enzyme sử dụng trong kỹ thuật tạo dòng

GIẢI PHÁP CỦA GS1 QUẢN LÝ HÀNG HÓA, TÀI SẢN TRONG VẬN TẢI & LOGISTIC

ĐỀ XUẤT LỰA CHỌN PHƯƠNG PHÁP NGHIÊN CỨU ĐÁNH GIÁ GIÁ TRỊ KINH TẾ CÁC HỆ SINH THÁI BIỂN VIỆT NAM

Trình tự motiz. Bởi: Wiki Pedia

BỘ CÔNG THƯƠNG BÁO CÁO. Logistics Việt Nam LOGISTICS: TỪ KẾ HOẠCH ĐẾN HÀNH ĐỘNG NHÀ XUẤT BẢN CÔNG THƯƠNG

QUẢN LÝ NHÀ NƯỚC ĐỐI VỚI DỊCH VỤ LOGISTICS Ở CẢNG HẢI PHÒNG

APPLICATION OF ECHO STATE NETWORK FOR THE FORECAST OF AIR QUALITY

STUDY ON SOME GROUPS OF MICROORGANISM DURING THE FOREST REHABILITATION PROCESS IN SONG MA DISTRICT, SON LA PROVINCE

ASSESSMENT THE PROCESS OF ECOLOGICAL ENGINEERING APPLICATION IN HAI DUONG

Chương 2: CÁC KỸ THUẬT NỀN CỦA CNSH HIỆN ĐẠI (tiếp theo)

QUẢN LÝ NHÀ NƯỚC ĐỐI VỚI DỊCH VỤ LOGISTICS Ở CẢNG HẢI PHÒNG

Thời gian làm bài 60 phút, không kể thời gian giao đề Mã đề thi: 235 Đề thi gồm có 50 câu Họ và tên thí sinh:...số báo danh:...

SHARING THE PROJECT BUILDING EFFICIENCY ACCELERATOR (BEA) IN DA NANG CITY

MÁY VẬN CHUYỂN LIÊN TỤC

PHƯƠNG PHÁP PHÂN TÍCH PHỔ NGUYÊN TỬ

HỆ ĐIỀU HÀNH. GV: Lương Trần Hy Hiến Khoa: Công nghệ Thông tin.

Omni-channel mobile in retail Presenter: Trinh Van Hoa Company:Nguyen Kim Trading Company a member of Central Group Vietnam

NGHIÊN CỨU KHẢ NĂNG ĐẦU TƯ XÂY DỰNG NHÀ MÁY SẢN XUẤT XÚC TÁC FCC TẠI VIỆT NAM

CÁC MÁY NÂNG HẠ. Chương 1: GV. Nguyễn Hải Đăng *****

YẾU TỐ TÀI NGUYÊN DU LỊCH TRONG NĂNG LỰC CẠNH TRANH ĐIỂM ĐẾN DU LỊCH THỪA THIÊN HUẾ

XÁC ĐỊNH ĐOẠN MÃ VẠCH ADN CHO TRÀ HOA VÀNG TAM ĐẢO (Camellia tamdaoensis): LOÀI CÂY ĐẶC HỮU CỦA VIỆT NAM

Questionnaire Job Satisfaction

System of Rice Intensification (SRI): Scientific Bases and An Eco-Agriculture Approach

ECONOMIC ANALYSIS ON PRODUCTION OF HIGH QUALITY RICE IN CUULONG DELTA, VIETNAM

LESSON DEVELOPMENT VIETNAMESE. OBJECTIVES: After the lesson, students will be able to:

NGHIÊN CỨU ĐA HÌNH MỘT SỐ GIỐNG TẰM DÂU BẰNG KỸ THUẬT RAPD

Bài Giảng: Máy Nâng Chuyển ***** Chương 1: MÁY NÂNG HẠ. GV. Nguyễn Hải Đăng.

BÁO CÁO CẬP NHẬT TIN TỨC

XÂY DỰNG VÀ THỰC HIỆN CÁC GIẢI PHÁP DỰA VÀO HỆ SINH THÁI TẠI VIỆT NAM. Vũ Long

ĐIỀN TỪ VÀO ĐOẠN VĂN Part 3

Y HỌC THỰC HÀNH (893) - SỐ 11/ TÀI LIỆU THAM KHẢO. LÊ THỊ HƯƠNG GIANG Bệnh viện 198 HÀ VĂN NHƯ Trường ĐH Y tế công cộng

STUDY ON HERMETICALLY SEALED STORAGE SYSTEM FOR RICE SEEDS

PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN BẰNG MÁY TÍNH SỐ

Mechanization in rice harvesting and drying in the Mekong Delta in current is at low extent. The rice area in the Mekong Delta harvested mechanically

IMPROVING OF MAIZE YIELD AND PROFITABILITY THROUGH SITE-SPECIFIC NUTRIENT MANAGEMENT (SSNM) AND PLANTING DENSITY

PGS.TS CAO PHI PHONG 2014

LAND EVALUATION (LE) đất Mobi: :

CÁC KỸ THUẬT CHỈ THỊ DNA TRONG NGHIÊN CỨU VÀ CHỌN LỌC THỰC VẬT

The ASEAN Economic Community (AEC) will blend economies of 10

Outline. Big Data, Service Science, and Computational Science. Dữ liệu nhiều quanh ta hơn bao giờ hết. Big data là gì?

!!! LEDS GP CASE STUDY: THE SUBNATIONAL INTEGRATION OF THE VIET NAM GREEN GROWTH STRATEGY (VGGS)

Tổng quan về In-situ TEM ứng dụng trong các nghiên cứu vật lý, hóa học và năng lượng

Advancing ASEAN Sustainable Farming Network. Vietnam

Distribution of saline and freshwater in groundwater in Thai Binh province and solution for reasonable exploitation

THE PROCUREMENT PLAN (Updated till July 21, 2016)

THE IMPACT OF INDUSTRIAL ZONE INVESTMENT AND DEVELOPMENT ON THE LAND LOSS PEOPLE S INCOMES

Kính gửiquy Công Ty. Vũ Tuấn Anh Giám Đốc ĐiềuHànhViệnQuản Lý Việt Nam. NGAYHOIVIECLAM.VN Make Own Opportunities. VIM.EDU.VN Move Ahead Competitors

Transcription:

Khoa Công Nghệ Thông Tin Trường Đại Học Cần Thơ Phương pháp học Bayes Bayesian classification Đỗ Thanh Nghị dtnghi@cit.ctu.edu.vn Cần Thơ 0-1-008

Nội dung Kết luận và hướng phát triển

Nội dung Kết luận và hướng phát triển

Bayesian classification lớp các giải thuật học dựa trên theorem Bayes mạng Bayes và naive Bayes kết quả sinh ra có thể dịch được giải quyết các vấn đề về phân loại, gom nhóm, etc. được ứng dụng thành công : phân tích dữ liệu, phân loại text, spam, etc. 4

Kỹ thuật DM thành công trong ứng dụng thực (004) 5

Nội dung Kết luận và hướng phát triển 6

Giải thuật naive Bayes ngây thơ các thuộc tính (biến) có độ quan trọng như nhau các thuộc tính (biến) độc lập có điều kiện khi được cho lớp/nhãn nhận xét giả thiết các thuộc tính độc lập không bao giờ đúng nhưng trong thực tế, naive Bayes cho kết quả khá tốt 7

Dữ liệu weather, dựa trên các thuộc tính (Outlook, Temp, Humidity, Windy), quyết định (play/no) Outlook Temp Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No 8

Dữ liệu weather, dựa trên các thuộc tính (Outlook, Temp, Humidity, Windy), quyết định (play/no) Sunny Overcast Rainy Sunny Overcast Rainy Outlook Yes 4 /9 4/9 /9 No 0 /5 0/5 /5 Temperature Hot Mild Cool Hot Mild Cool Yes 4 /9 4/9 /9 No 1 /5 /5 1/5 High Normal High Normal Humidity Yes 6 /9 6/9 No 4 1 4/5 1/5 False True False True Windy Yes 6 6/9 /9 No /5 /5 Yes 9/14 Outlook Temp Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes No 5/14 Overcast Hot Normal False Yes Rainy Mild High True No 9 9 Play 5

Dữ liệu weather, dựa trên các thuộc tính (Outlook, Temp, Humidity, Windy), quyết định (play/no) Outlook Temperature Humidity Windy Play Yes No Yes No Yes No Yes No Yes No Sunny Hot High 4 False 6 9 5 Overcast 4 0 Mild 4 Normal 6 1 True Rainy Cool 1 Sunny /9 /5 Hot /9 /5 High /9 4/5 False 6/9 /5 9/14 5/14 Overcast 4/9 0/5 Mild 4/9 /5 Normal 6/9 1/5 True /9 /5 Rainy /9 /5 Cool /9 1/5 quyết định (play=yes/no) Outlook Temp. Humidity Windy Play Sunny Cool High True? Likelihood(yes) = /9 x /9 x /9 x /9 x 9/14 = 0.005 Likelihood(no) = /5 x 1/5 x 4/5 x /5 x 5/14 = 0.006 Xác suất : P(yes) = 0.005 / (0.005 + 0.006) = 0.05 P(no) = 0.006 / (0.005 + 0.006) = 0.795 10

Luật Bayes Probability of event H given evidence E : A priori probability of H : Pr[H] Probability of event before evidence is seen A posteriori probability of H : Pr[H E] Pr[ H E] Pr[ E H ]Pr[ H ] Pr[ E] Probability of event after evidence is seen 11

Luật Bayes học phân lớp khi có dữ liệu đến naïve : Evidence E = dữ liệu Event H = giá trị lớp của dữ liệu Pr[ E1 H ]Pr[ E Pr[ H E] H ] Pr[ E Pr[ E] n H ]Pr[ H ] 1

Luật Bayes Outlook Temp. Humidity Windy Play Sunny Cool High True? Evidence E Pr[ yes E] Pr[ Outlook Sunny yes] Pr[ Temperature Cool yes] xác suất của lớp yes Pr[ Humidity High Pr[ Windy True Pr[ yes] Pr[ E] yes] yes] 9 9 9 9 Pr[ E] 9 14 1

Xác suất = 0 giá trị của thuộc tính không xuất hiện trong tất cả các lớp ( Humidity = high của lớp yes ) Probability will be zero! Pr[ Humidity A posteriori probability will also be zero! High yes] 0 Pr[ yes E] 0 sử dụng Laplace estimator xác suất không bao giờ có giá trị 0 14

Laplace estimator ví dụ : thuộc tính outlook cho lớp yes / 4 / 9 9 / 9 Sunny Overcast Rainy trọng số có thể không bằng nhau, nhưng tổng phải là 1 1 p 9 4 p 9 p 9 Sunny Overcast Rainy 15

Giá trị thuộc tính nhiễu học : bỏ qua dữ liệu nhiễu phân lớp : bỏ qua các thuộc tính nhiễu ví dụ : Outlook Temp. Humidity Windy Play? Cool High True? Likelihood(yes) = /9 /9 /9 9/14 = 0.08 Likelihood(no) = 1/5 4/5 /5 5/14 = 0.04 P(yes) = 0.08 / (0.08 + 0.04) = 41 P(no) = 0.04 / (0.08 + 0.04) = 59 16

Dữ liệu liên tục 17

Dữ liệu liên tục giả sử các thuộc tính có phân phối Gaussian hàm mật độ xác suất được tính như sau mean 1 n n i 1 x i standard deviation 1 n n 1 i1 ( x i ) hàm mật độ xác suất f(x) f ( x ) 1 ( x) e Karl Gauss, 1777-1855 great German mathematician 18

Dữ liệu liên tục (667) 1 ví dụ : 6. f ( temperature 66 yes) e 0. 040 6. 19

Dữ liệu liên tục phân lớp Outlook Temp. Humidity Windy Play Sunny 66 90 true? Likelihood(yes) = /9 0.040 0.01 /9 9/14 = 0.00006 Likelihood(no) = /5 0.091 0.080 /5 5/14 = 0.00016 P(yes) = 0.00006 / (0.00006 + 0. 00016) = 0.9 P(no) = 0.00016 / (0.00006 + 0. 00016) = 79.1 0

Nội dung Kết luận và hướng phát triển 1

Kết luận naïve Bayes cho kết quả tốt trong thực tế mặc dù chịu những giả thiết về tính độc lập có điều kiện (khi được cho nhãn/lớp) của các thuôc tính phân lớp không yêu cầu phải ước lượng một cách chính xác xác suất dễ cài đặt, học nhanh, kết quả dễ hiểu sử dụng trong phân loại text, spam, etc tuy nhiên khi dữ liệu có nhiều thuộc tính dư thừa thì naïve Bayes không còn hiệu quả dữ liệu liên tục có thể không tuân theo phân phối chuẩn (=> kernel density estimators)

Hướng phát triển naïve Bayes chọn thuộc tính con từ các thuộc tính ban đầu chỉ sử dụng các thuộc tính con để học phân lớp mạng Bayes : mối liên quan giữa các thuộc tính tìm kiếm thông tin (ranking)