Phương pháp học cây quyết định Decision Tree

Similar documents
Phương pháp học Bayes Bayesian classification

Centre for Organisational Effectiveness Trung Tâm vì Hiệu Quả Quản Lý

Giới thiệu về Nhãn Sinh thái

2016 BÁO CÁO CỦA BAN KIỂM SOÁT REPORT OF SUPERVISORY BOARD

B2C :30: 08:30 08:35 : 08:35 09:50: & 09:50 10:05 : 10:05 10:25 : 10:25 11:00 : 11:00 11:15 : Q&A

Do yêu cầu công việc mỗi công tác công nhân sẽ làm thêm 1 giờ mỗi ngày, số giờ tăng ca được tính toán:

Phân tích hướngđối tượng UML

TCVN TIÊU CHUẨN QUỐC GIA * NATIONAL STANDARD

THÔNG TIN GIẢNG VIÊN

Ecological Services Analysis: Some Evidences and Policy Implications for Socio- Economic Development of Ecosystems of Việt Trì City, Phú Thọ Province

Chương III CÁC CẤU TRÚC VÀ CHIẾN LƯỢC DÙNG CHO VIỆC TÌM KIẾM TRONG KHÔNG GIAN TRẠNG THÁI

WORKSHEET 06: LẬP TRÌNH GIAO DIỆN TRONG MATLAB

TRACE 700 Load Design Mode

Tuyển tập Báo cáo Hội nghị Sinh viên Nghiên cứu Khoa học lần thứ 6 Đại học Đà Nẵng

PHƯƠNG PHÁP XUYÊN TĨNH, KHẢ NĂNG ỨNG DỤNG VÀ ƯU NHƯỢC ĐIỂM CỦA NÓ CONE PENETRATION TEST METHOD, ADVANTAGE AND DISADVANTAGE

VIE: Greater Mekong Subregion Ben Luc-Long Thanh Expressway Project - Tranche 1

So, how ERP revolutionise manufacturing process?

Breakout Group Session II. Group Presentations Friday, 27 September

Thiết kế và thi công cừ biển cốt polymer

INTERNATIONAL STANDARD 22000

Gluten-Free Certification Program Chương trình chứng nhận sản phẩm không chứa gluten (gluten free)

Bảng chú giải thuật ngữ và từ viết tắt ITIL. Việt Nam

THÔNG TIN VỀ LUẬN VĂN THẠC SĨ

Mục Lục. Phamvana.wordpress.com MỤC LỤC...1 LỜI NÓI ĐẦU...4

Kiểu Dữ Liệu, Biến, Lệnh If, Vòng Lặp

Tel: Fax:

Quy Tắc Ứng Xử. Bộ Quy tắc Ứng xử AMMPL (BME) Đối với Tham nhũng, Lao động Trẻ em và Liên kết Kinh doanh

XCS. Reference Guide. XCS Contact Center Plans Comparison

SỰ SAO CHÉP DNA. DNA là vật chất di truyền. Thí nghiệm về biến nạp của Griffith. DNA mang tín hiệu di truyền. Thí nghiệm của Frederick Griffith (1928)

NGHIÊN CỨU ẢNH HƯỞNG CỦA ĐIỀU KIỆN SẤY ĐỐI LƯU ĐẾN THÀNH PHẦN DINH DƯỠNG CỦA BỘT NẤM MÈO Auricularia auricula-judae

Hoàn thiện chính sách phát triển ngành công nghiệp thức ăn chăn nuôi của Việt Nam

QUẢN LÝ NHÀ NƯỚC ĐỐI VỚI DỊCH VỤ LOGISTICS Ở CẢNG HẢI PHÒNG

HƯỚNG DẪN CỦA OECD/OECD GUIDELINES

CÁC DỰ ÁN LỚN PREMIUM PROJECTS

SHARING THE PROJECT BUILDING EFFICIENCY ACCELERATOR (BEA) IN DA NANG CITY

Course Revision. Truong Tuan Anh CSE-HCMUT

MÁY VẬN CHUYỂN LIÊN TỤC

Application Reference Letter

NGHIÊN CỨU ỨNG DỤNG CÔNG NGHỆ HÀN TỰ ĐỘNG DƯỚI LỚP THUỐC ĐỂ HÀN THÉP HỢP KIM THẤP ĐỘ BỀN CAO Q345B

Sử dụng & theo dõi chống đông máu trong ECMO. Bs. Lê Đức Thắng Đơn vị PT Tim mạch-viện Tim Mạch-Bv Bạch Mai

ĐIỀU KHIỂN LẬP TRÌNH PLC (30 tiết) Mục tiêu

CÁC MÁY NÂNG HẠ. Chương 1: GV. Nguyễn Hải Đăng *****

XÂY DỰNG VÀ THỰC HIỆN CÁC GIẢI PHÁP DỰA VÀO HỆ SINH THÁI TẠI VIỆT NAM. Vũ Long

HIỆU QUẢ CỦA PHÂN HỮU CƠ TRONG CẢI THIỆN NĂNG SUẤT KHÓM TRÊN ĐẤT PHÈN TẠI HỒNG DÂN- BẠC LIÊU

Giáo trình cơ sở dữ liệu. Biên tập bởi: Ngô Trần Thanh Thảo

Management and monitoring of air and water pollution by using GIS technology

USING NET PRESENT VALUE METHOD IN ECONOMIC EFFICIENCY ANALYSIS FOR FOREST PLANTATION: PROBLEMS AND SOLUTIONS

Glossary of auditing terms and Vietnamese equivalents

Vietnam Course programme July-August 2007

Nguyên nhân suy thoái môi trường: Thất bại thị trường (quyền sở hữu)

Bài Giảng: Máy Nâng Chuyển ***** Chương 1: MÁY NÂNG HẠ. GV. Nguyễn Hải Đăng.

CƠ SỞ LÝ THUYẾT HÓA HỌC

Collaborating to Reduce Lead Poisoning in Vietnam

CÔNG TY CỔ PHẦN CÔNG NGHỆ THỜI VIỆT VIET AGE TECHNOLOGY JOINT STOCK COMPANY

KHẢO SÁT VIỆC SỬ DỤNG THUỐC TẠI PHÒNG KHÁM NỘI KHỚP KHOA KHÁM BỆNH BỆNH VIỆN AN GIANG TRÊN ĐỐI TƢỢNG BỆNH NHÂN CÓ THẺ BẢO HIỂM Y TẾ

Chương 2: CÁC KỸ THUẬT NỀN CỦA CNSH HIỆN ĐẠI (tiếp theo)

QUẢN LÝ NHÀ NƯỚC ĐỐI VỚI DỊCH VỤ LOGISTICS Ở CẢNG HẢI PHÒNG

Thời gian làm bài 60 phút, không kể thời gian giao đề Mã đề thi: 235 Đề thi gồm có 50 câu Họ và tên thí sinh:...số báo danh:...

NGHIÊN CỨU KHẢ NĂNG ĐẦU TƯ XÂY DỰNG NHÀ MÁY SẢN XUẤT XÚC TÁC FCC TẠI VIỆT NAM

Trình tự motiz. Bởi: Wiki Pedia

Ủy ban Basel về Giám sát Ngân hàng Ngân hàng Thanh toán Quốc tế. Các nguyên tắc tăng cường quản trị công ty đối với các tổ chức ngân hàng

Các enzyme sử dụng trong kỹ thuật tạo dòng

PHƯƠNG PHÁP PHÂN TÍCH PHỔ NGUYÊN TỬ

LESSON DEVELOPMENT VIETNAMESE. OBJECTIVES: After the lesson, students will be able to:

ĐỀ XUẤT LỰA CHỌN PHƯƠNG PHÁP NGHIÊN CỨU ĐÁNH GIÁ GIÁ TRỊ KINH TẾ CÁC HỆ SINH THÁI BIỂN VIỆT NAM

IMPLEMENTATION OF SUSTAINABLE DEVELOPMENT GOALS (SDGs)

1. GIỚI THIỆU CHUNG Khái niệm dự án. Dự án

NGHIÊN CỨU ĐA HÌNH MỘT SỐ GIỐNG TẰM DÂU BẰNG KỸ THUẬT RAPD

STUDY ON SOME GROUPS OF MICROORGANISM DURING THE FOREST REHABILITATION PROCESS IN SONG MA DISTRICT, SON LA PROVINCE

BỘ CÔNG THƯƠNG BÁO CÁO. Logistics Việt Nam LOGISTICS: TỪ KẾ HOẠCH ĐẾN HÀNH ĐỘNG NHÀ XUẤT BẢN CÔNG THƯƠNG

XÁC ĐỊNH ĐOẠN MÃ VẠCH ADN CHO TRÀ HOA VÀNG TAM ĐẢO (Camellia tamdaoensis): LOÀI CÂY ĐẶC HỮU CỦA VIỆT NAM

YẾU TỐ TÀI NGUYÊN DU LỊCH TRONG NĂNG LỰC CẠNH TRANH ĐIỂM ĐẾN DU LỊCH THỪA THIÊN HUẾ

DEVELOPMENT OF FORECAST MODEL FOR DOMESTIC WATER DEMAND IN HUNG NHAN TOWN, HUNG HA DISTRICT, THAI BINH PROVINCE

ECONOMIC ANALYSIS ON PRODUCTION OF HIGH QUALITY RICE IN CUULONG DELTA, VIETNAM

BÁO CÁO CẬP NHẬT TIN TỨC

MÁY VẬN CHUYỂN LIÊN TỤC

Advancing ASEAN Sustainable Farming Network. Vietnam

Distribution of saline and freshwater in groundwater in Thai Binh province and solution for reasonable exploitation

Tiếng anh chuyên ngành Thổ nhưỡngvà Môi trường đất NXB Đại học quốc gia Hà Nội Tr

LAND EVALUATION (LE) đất Mobi: :

HỆ ĐIỀU HÀNH. GV: Lương Trần Hy Hiến Khoa: Công nghệ Thông tin.

THE EFFICIENCY OF USING THE RICE STRAW COMPOST TREATED WITH TRICHODERMA

ĐIỀN TỪ VÀO ĐOẠN VĂN Part 3

CÁC KỸ THUẬT CHỈ THỊ DNA TRONG NGHIÊN CỨU VÀ CHỌN LỌC THỰC VẬT

Feasibility assessment of anaerobic digestion technologies for household wastes in Vietnam

STUDY ON HERMETICALLY SEALED STORAGE SYSTEM FOR RICE SEEDS

Hãy chọn (tích) mục Microsoft DAO 3.6 Object Libraly trên danh sách Available References; chọn xong, nhấn OK để đóng lại.

ASSESSMENT THE PROCESS OF ECOLOGICAL ENGINEERING APPLICATION IN HAI DUONG

PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN BẰNG MÁY TÍNH SỐ

Kính gửiquy Công Ty. Vũ Tuấn Anh Giám Đốc ĐiềuHànhViệnQuản Lý Việt Nam. NGAYHOIVIECLAM.VN Make Own Opportunities. VIM.EDU.VN Move Ahead Competitors

Omni-channel mobile in retail Presenter: Trinh Van Hoa Company:Nguyen Kim Trading Company a member of Central Group Vietnam

Tổng quan về In-situ TEM ứng dụng trong các nghiên cứu vật lý, hóa học và năng lượng

IELTS TOPIC VOCABULARY BY NGOCBACH

INFLUENCE OF RICE STRAW TREATED BY INDIGINOUS Trichoderma spp. ON SOIL FERTILITY, RICE GRAIN YIELD AND ECONOMIC EFFICIENCY IN THE MEKONG DELTA

GIẢI PHÁP CỦA GS1 QUẢN LÝ HÀNG HÓA, TÀI SẢN TRONG VẬN TẢI & LOGISTIC

THE PROCUREMENT PLAN (Updated till July 21, 2016)

System of Rice Intensification (SRI): Scientific Bases and An Eco-Agriculture Approach

Bang thong ke ket qua xo so nam 2015

Outline. Big Data, Service Science, and Computational Science. Dữ liệu nhiều quanh ta hơn bao giờ hết. Big data là gì?

Các kỹ thuật PCR và ứng dụng BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NÔNG LÂM THÀNH PHỐ HỒ CHÍ MINH BỘ MÔN CÔNG NGHỆ SINH HỌC ****0O0****

Transcription:

Khoa Công Nghệ Thông Tin Trường Đại Học Cần Thơ Phương pháp học cây quyết định Decision Tree Đỗ Thanh Nghị dtnghi@cit.ctu.edu.vn Cần Thơ 02-12-2008

Nội dung Giải thuật học của cây quyết định Kết luận và hướng phát triển 2

Nội dung Giải thuật học của cây quyết định Kết luận và hướng phát triển 3

Cây quyết định lớp các giải thuật học kết quả sinh ra dễ dịch (if then ) khá đơn giản, nhanh, hiệu quả được sử dụng nhiều liên tục trong nhiều năm qua, cây quyết định được bình chọn là giải thuật được sử dụng nhiều nhất và thành công nhất giải quyết các vấn đề của phân loại, hồi quy làm việc cho dữ liệu số và loại được ứng dụng thành công trong hầu hết các lãnh vực về phân tích dữ liệu, phân loại text, spam, phân loại gien, etc có rất nhiều giải thuật sẵn dùng : C4.5 (Quinlan, 1993), CART (Breiman et al., 1984), etc 4

Kỹ thuật DM thành công trong ứng dụng thực (2004) 5

Nội dung Giải thuật học của cây quyết định Kết luận và hướng phát triển 6

Giải thuật học cây quyết định 1 nút trong : test trên 1 thuộc tính (biến) 1 nhánh : trình bày cho dữ liệu thỏa mãn test, ví dụ : age < 25. nút lá : lớp (nhãn) ở mỗi nút, 1 thuộc tính được chọn để phân hoạch dữ liệu học sao cho tách rời các lớp tốt nhất có thể dữ liệu mới đến được phân loại theo đường dẫn từ gốc đến nút lá 7

Dữ liệu weather, dựa trên các thuộc tính (Outlook, Temp, Humidity, Windy), quyết định (play/no) Outlook Temp Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No 8

Cây quyết định cho tập dữ liệu weather, dựa trên các thuộc tính (Outlook, Temp, Humidity, Windy) Outlook sunny overcast rain Humidity Yes Windy high normal false true No Yes No Yes 9

Giải thuật cây quyết định xây dựng cây Top-down bắt đầu nút gốc, tất cả các dữ liệu học ở nút gốc phân hoạch dữ liệu một cách đệ quy bằng việc chọn 1 thuộc tính để thực hiện phân hoạch tốt nhất có thể cắt nhánh Bottom-up cắt những cây con hoặc các nhánh từ dưới lên trên, để tránh học vẹt (overfitting, over learning) 10

Chọn thuộc tính phân hoạch ở mỗi nút, các thuộc tính được đánh giá dựa trên phân tách dữ liệu học tốt nhất có thể việc đánh giá dựa trên độ lợi thông tin, information gain (ID3/C4.5) information gain ratio chỉ số gini, gini index (CART) 11

Chọn thuộc tính phân hoạch? 12

Chọn thuộc tính phân hoạch? thuộc tính nào tốt? cho ra kết quả là cây nhỏ nhất heuristics: chọn thuộc tính sinh ra các nút purest (thuần khiết) độ lợi thông tin tăng với giá trị trung bình thuần khiết của các tập con của dữ liệu mà thuộc tính sinh ra chọn thuộc tính có độ lợi thông tin lớn nhất 13

Độ lợi thông tin thông tin được đo lường bằng bits cho 1 phân phối xác suất, thông tin cần thiết để dự đoán 1 sự kiện là entropy công thức tính entropy: entropy( p1, p2,, pn) p1log p1 p2logp2 p n logp n 14

*Claude Shannon Born: 30 April 1916 Died: 23 February 2001 Father of information theory 15

Ví dụ : thuộc tính outlook Outlook Temperature Humidity Windy Play? sunny hot high false No sunny hot high true No overcast hot high false Yes rain mild high false Yes rain cool normal false Yes rain cool normal true No overcast cool normal true Yes sunny mild high false No sunny cool normal false Yes rain mild normal false Yes sunny mild normal true Yes overcast mild high true Yes overcast hot normal false Yes rain mild high true No 16

Ví dụ : thuộc tính outlook Outlook = Sunny : info([2,3] ) entropy(2/5,3/5) 2/5log(2/5) 3/ 5log(3/ 5) Outlook = Overcast : info([4,0] ) entropy(1,0) 1log(1) 0log(0) Outlook = Rainy : info([3,2] ) entropy(3/5,2/5) thông tin của thuộc tính outlook: info([3,2],[4,0],[3,2]) 0 bits là 0 3/ 5log(3/ 5) 2/5log(2/5) 0.971bits chú ý : log(0) không xác định nhưng 0*log(0) (5/14) 0.971 (4/14) 0 (5/14) 0.971 0.693 bits 0.971bits 17

Độ lợi thông tin độ lợi thông tin của outlook (trước khi phân hoạch) (sau khi phân hoạch) gain(" Outlook") info([9,5]) -info([2,3],[4,0],[3,2]) 0.247 bits 0.940-0.693 18

Thuộc tính humidity Humidity = High : info([3,4] ) entropy(3/ 7,4/7) Humidity = Normal : info([6,1] ) entropy(6/ 7,1/7) 6/7log(6/7) 1/ 7log(1/ 7) thông tin của thuộc tính humidity info([3,4],[6,1]) độ lợi thông tin của thuộc tính humidity 3/ 7log(3/ 7) 4/7log(4/7) 0.985 bits (7/14) 0.985 (7/14) 0.592 0.788 bits 0.592 bits info([9,5] ) - info([3,4],[6,1]) 0.940-0.788 0.152 19

Độ lợi thông tin độ lợi thông tin của các thuộc tính (trước khi phân hoạch) (sau khi phân hoạch) gain(" Outlook") gain(" Temperature") gain(" Humidity") 0.247 bits 0.029 bits 0.152 bits gain(" Windy") 0.048 bits 20

Tiếp tục phân hoạch dữ liệu gain(" Temperature") 0.571bits gain(" Humidity") 0.971bits gain(" Windy") 0.020 bits 21

Kết quả chú ý : có thể có nút lá không thuần khiết phân hoạch dừng khi dữ liệu không thể phân hoạch, nhãn được gán cho lớp lớn nhất chứa trong nút lá 22

Chỉ số gini (CART) nếu dữ liệu T có n lớp, chỉ số gini(t) được định nghĩa như sau : p j là xác suất của lớp j trong T gini(t) là nhỏ nhất nếu những lớp trong T bị lệch 23

Chỉ số gini (CART) sau khi phân hoạch T thành 2 tập con T1 & T2 với kích thước N1 & N2, chỉ số gini thuộc tính có gini split (T) nhỏ nhất được chọn để phân hoạch 24

Giải thuật giải thuật ID3/C4.5 (Quinlan, 1993) sử dụng Gain ratio xử lý dữ liệu số, loại, nhiễu CART (Breiman et al., 1984) sử dụng chỉ số Gini xử lý dữ liệu số, loại, nhiễu 25

Giải thuật C4.5, dữ liệu kiểu số phân hoạch nhị phân ví dụ : temp < 45 không như dữ liệu loại, dữ liệu kiểu số có nhiều nhánh phân hoạch phương pháp tính độ lợi thông tin cho mọi giá trị phân nhánh của thuộc tính chọn giá trị phân nhánh tốt nhất 26

Tập Weather, dữ liệu kiểu số Outlook Temperature Humidity Windy Play Sunny 85 85 False No Sunny 80 90 True No Overcast 83 86 False Yes Rainy 75 80 False Yes If outlook = sunny and humidity > 83 then play = no If outlook = rainy and windy = true then play = no If outlook = overcast then play = yes If humidity < 85 then play = yes If none of the above then play = yes 27

Tập Weather, dữ liệu kiểu số phân hoạch trên thuộc tính temperature 64 65 68 69 70 71 72 72 75 75 80 81 83 85 Yes No Yes Yes Yes No No Yes Yes Yes No Yes Yes No ví dụ temperature 71.5: yes/4, no/2 temperature 71.5: yes/5, no/3 Info([4,2],[5,3]) = 6/14 info([4,2]) + 8/14 info([5,3]) = 0.939 bits điểm phân hoạch : giữa có thể tính tất cả với 1 lần pass! cần sắp xếp dữ liệu 28

Cải tiến chỉ cần tính entropy tại các điểm thay đổi lớp (Fayyad & Irani, 1992) giá trị lớp 64 65 68 69 70 71 72 72 75 75 80 81 83 85 Yes No Yes Yes Yes No No Yes Yes Yes No Yes Yes No X điểm giữa của cùng lớp không phải điểm tối ưu 29

Cắt nhánh mục tiêu : tránh học vẹt (overfitting), chịu đựng nhiễu, tăng độ chính xác khi phân loại tập test có 2 pha postpruning cắt nhánh cây sao cho tăng khả năng phân loại của cây prepruning dừng sớm quá trình phân nhánh trong thực tế, postpruning được sử dụng nhiều hơn prepruning 30

Postpruning xây dựng cây đầy đủ cắt nhánh thay thế cây con đưa cây con lên trên có nhiều chiến lược ước lượng lỗi significance test 31

Thay thế cây con Bottom-up thay thế sau khi đã xét tất cả các cây con 32

Thay thế cây con thay thế cây con nào? 33

Thay thế cây con 34

Đưa cây con lên trên X 35

Nội dung Giải thuật học của cây quyết định Kết luận và hướng phát triển 36

Kết luận cây quyết định xây dựng top-down chọn thuộc tính để phân hoạch (độ lợi thông tin, entropy, chỉ số Gini, etc) cắt nhánh bottom-up dễ cài đặt, học nhanh, kết quả dễ hiểu được sử dụng nhiều và thành công nhất trong các ứng dụng thực 37

Hướng phát triển phát triển tăng độ chính xác xử lý dữ liệu không cân bằng dữ liệu phức tạp có số chiều lớn cây oblique tìm kiếm thông tin (ranking) clustering 38