Outline. Big Data, Service Science, and Computational Science. Dữ liệu nhiều quanh ta hơn bao giờ hết. Big data là gì?

Similar documents
THÔNG TIN GIẢNG VIÊN

TCVN TIÊU CHUẨN QUỐC GIA * NATIONAL STANDARD

Bảng chú giải thuật ngữ và từ viết tắt ITIL. Việt Nam

CÁC DỰ ÁN LỚN PREMIUM PROJECTS

YẾU TỐ TÀI NGUYÊN DU LỊCH TRONG NĂNG LỰC CẠNH TRANH ĐIỂM ĐẾN DU LỊCH THỪA THIÊN HUẾ

Ủy ban Basel về Giám sát Ngân hàng Ngân hàng Thanh toán Quốc tế. Các nguyên tắc tăng cường quản trị công ty đối với các tổ chức ngân hàng

ĐỀ XUẤT LỰA CHỌN PHƯƠNG PHÁP NGHIÊN CỨU ĐÁNH GIÁ GIÁ TRỊ KINH TẾ CÁC HỆ SINH THÁI BIỂN VIỆT NAM

Management and monitoring of air and water pollution by using GIS technology

ECONOMIC ANALYSIS ON PRODUCTION OF HIGH QUALITY RICE IN CUULONG DELTA, VIETNAM

Chương 2: CÁC KỸ THUẬT NỀN CỦA CNSH HIỆN ĐẠI (tiếp theo)

NGHIÊN CỨU ĐA HÌNH MỘT SỐ GIỐNG TẰM DÂU BẰNG KỸ THUẬT RAPD

Các enzyme sử dụng trong kỹ thuật tạo dòng

CÁC KỸ THUẬT CHỈ THỊ DNA TRONG NGHIÊN CỨU VÀ CHỌN LỌC THỰC VẬT

HIỆU QUẢ CỦA ĐÔ T NHIỆT CAO TÂ N (RFA)TRÊN UNG THƯ BIỂU MÔ TẾ BÀO GAN KHÔNG ĐÁP ỨNG HOÀN TOÀN VỚI THUYÊN TĂ C HO A TRI QUA ĐÔ NG MA CH(TACE)

System of Rice Intensification (SRI): Scientific Bases and An Eco-Agriculture Approach

Kính gửiquy Công Ty. Vũ Tuấn Anh Giám Đốc ĐiềuHànhViệnQuản Lý Việt Nam. NGAYHOIVIECLAM.VN Make Own Opportunities. VIM.EDU.VN Move Ahead Competitors

VIETNAM HOSPITALITY INDUSTRY ON THE WAY OF SUSTAINABLE WATER USE

MÀNG TỪ VẬT LÝ MÀNG MỎNG ĐỀ TÀI: ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC KHAO HỌC TỰ NHIÊN KHOA VẬT LÝ GVHD: PGS.TS LÊ VĂN HIẾU NHÓM THỰC HIỆN

Hội nghị Sơn Phủ Châu Á 2017

APPLICATION OF ECHO STATE NETWORK FOR THE FORECAST OF AIR QUALITY

Hãy chọn (tích) mục Microsoft DAO 3.6 Object Libraly trên danh sách Available References; chọn xong, nhấn OK để đóng lại.

cêu t¹o ph n tö vμ liªn kõt ho häc

Farm Household Economic Management A case study at Tan Phu Thanh Village, Chau Thanh A District, Can Tho Province

REPORT LIN INTERNATIONAL VOLUNTEER DAY EVENT: I VOLUNTEER! 04 December, 2012

Culture of freshwater prawns in rice fields and an orchard canal in Tan Phu Thanh Village, Chau Thanh A district, Can Tho province

Tran Thanh Tu - VAST Tran Van Quy - HUS

Ecosystems and Their Services in Da Bac District, Hoa Binh Province

BƢỚC ĐẦU KHẢO SÁT TUYẾN TRÙNG KÝ SINH THỰC VẬT TRÊN MỘT SỐ CÂY DƢỢC LIỆU TẠI ĐÔNG TRIỀU (QUẢNG NINH)

Omonrice 18: (2011) Trinh Quang Khuong 1, Tran thi Ngoc Huan 1, Phạm Sy Tan 1 and Ngo Ngoc Hung 2

LONG TERM STRUCTURAL HEALTH MONITORING SYSTEM FOR CABLE STAYED BRIDGE IN VIETNAM

QUYẾT ĐỊNH Về việc ban hành tài liệu Hƣớng dẫn quy trình kỹ thuật chuyên ngành Huyết học-truyền máu-miễn dịch-di truyền-sinh học phân tử

Cement Linings LỚP LÓT VẬT LIỆU CHỊU LỬA - GIẢI PHÁP TỪ NHÀ MÁY TẠI CHÂU ÂU. Cement / Lining ConCepts

4 ALTEREO 6 APB 8 DE DIETRICH 10 EAUPURE 12 HEMERA 14 LABARONNE CITAF 16 LACROIX SOFREL 18 PERRIER SOREM 20 SAPPEL 22 SCE 24 SIMOP

Nguồn gốc hình thành corindon có các riềm vỏ spinel bao quanh từ khu vực Tân Hương-Trúc Lâu, Yên Bái

2. Dạng Đầy Đủ II. LỆNH CẤU TRÖC LỰA CHỌN Dạng Không Đầy Đủ... 19

Đã công bố/ PUBLISHED/ Pham Quang Ha s Publication & Communication

LIST OF CONSTRUCTION MATERIALS COMPANIES IN VIETNAM

DISCOVER UNSEEN INSIGHTS

QUYẾT ĐỊNH Về việc ban hành tài liệu chuyên môn Hướng dẫn sử dụng kháng sinh

The actual situation of the port system in Vietnam

Career Value Orientation of Psychology Students in Ho Chi Minh City

Glossary. Science Glossary. Intermediate School Level. English / Vietnamese

Advertisements: Hi-language for Hi-tech?

Effecting of medium composition on biomass and ginsenoside production in cell suspension culture of Panax vietnamensis Ha et Grushv.

Lessons Learned: NAMA development in Vietnam

Systems thinking methodology in researching the impacts of climate change on livestock industry

RI LON THNG BNG KIM TOAN NHNG NGUYÊN LÝ CHUNG

2013 SWAT CONFERENCE Toulouse, France, July 17-19, 2013

IPM on Citrus with An Emphasis on Citrus Psyllid Control in Tan Phu Thanh Village

BO TO ouan ouk irf YE tic

Stefania Romano, Silvia Giuliani, Luca Giorgio Bellucci, Mauro Frignani

RICE BREEDING FOR HIGH GRAIN QUALITY THROUGH ANTHER CULTURE

The relationship between franchise and franchisor: A study of the Vietnamese retail franchising

Da Nang, Vietnam. Dr. Dang Quang Vinh, Manager Da Nang Environmental Protection Agency

#24. Singapore 18 May Vietnam s Leadership Transition in 2016: A Preliminary Analysis. By Le Hong Hiep* EXECUTIVE SUMMARY

LEVELED MOUNTAINS AND BROKEN FENCES: MEASURING AND ANALYSING DE FACTO DECENTRALISATION IN VIETNAM EDMUND MALESKY *

qwertyuiopasdfghjklzxcvbnmqw yuiopasdfghjklzxcvbnmqwertyui opasdfghjklzxcvqwertyuiopasdfg hjklzxcvbnmqwertyuiopasdfghjk THUẬT NGỮ

University of Agriculture & Forestry - Hue University. Châu Thành court, Cai Lậy court & Sắc Tứ pagoda, Tiền Giang

Consumer Behavior Survey SOFT DRINK MARKET

Overview of Water Environmental Pollution in Vietnam

DESTINATION BRANDING: THE COMPARATIVE CASE STUDY OF GUAM AND VIETNAM

POTENTIAL IMPACTS OF THE SUPER SEA DYKE (SSD) AT RACH GIA BAY ON THE VALUES OF MANGROVES IN KIEN GIANG PROVINCE - MEKONG DELTA, VIETNAM

Vietnamese Real Estate - The potential market

Title: Economic and social benefits of flood-based livelihoods in Vietnam s Mekong Delta: a case study in An Giang Province

Gemeinsam Heimat schaffen mit Schwäbisch Hall

A REVIEW OF THE ROLE OF COLLECTORS IN VIETNAM S RICE VALUE NETWORK

BREEDING FOR LOW PHYTIC ACID MUTANTS IN RICE (Oryza sativa L.)

Land use change and rice crop monitoring in the Mekong Delta, Vietnam

Current status of nanotechnology development in Vietnam

UN-EU GUIDELINES FOR FINANCING OF LOCAL COSTS IN DEVELOPMENT CO-OPERATION WITH VIET NAM. Version 2013

Nail 123 System User s Manual Introduction and Functionalities of Nail 123 Version /11/2005

Corporate Social Responsibility - On Aspect of Environmental Protection in Vietnam Today

Correlation between Climate Change Impacts and Migration Decisions in Vietnamese Mekong Delta

REPORT ON FINAL WORKSHOP AND TRAINING COURSE ON NANO SAFETY IN VIETNAM Hanoi, 5-6 May 2016

STATE BANK OF VIETNAM BANKING ACADEMY. International Conference, BDBF 2017 Hanoi, Vietnam, June 15 th 2017 Proceedings

Assessment of Flood Hazard in Hanoi City

Business Associations and Their Role in Strengthening Industrial Relations

REPORT ON ENVIRONMENTAL MONITORING

TÀI LIỆU THAM KHẢO. Anderson, James H., Gary Reid and Randi Ryterman Understanding Public Sector Performance in Transition. Chương 1.

CURRICULUM VITAE NAME NGUYEN HAI HOA. Living address: House N0. 24B, Group I, Tan Xuan, Xuan Mai town, Chuong My

Oxfam America (VIE 034/07): System of Rice Intensification -- Advancing Small Farmers in Mekong Region

VIET NAM EMPLOYMENT FORUM

Peaceful Intelligence Consultant Co.,Ltd TABLE OF CONTENTS

Vietnam Agriculture Extension And Market Information System

I n a u g u r a l d i s s e r t a t i o n. zur. Erlangung des akademischen Grades. doctor rerum naturalium (Dr. rer. nat.)

THE RETAIL MARKET OF MEKONG DELTA KEY ECONOMIC REGION IN INTERNATIONAL INTEGRATION TREND

Climate Change on the Vietnam, Mekong Delta

COMPREHENSIVE REPORT

Suggested Improvements to the Administrative Court Model & the Proposed Introduction Of an Administrative Jurisdiction Body in Vietnam

HEALTHCARE & BEAUTY OFFERS

MID TERM REPORT. Completion of Pilot Investment Project Improved Cook Stove Use in Viet Nam. Revision: 01. Submitted to: Landell Mills Ltd.

Working Paper. REDD+ Benefit Distribution in Viet Nam

Infrastructure Roads At the end of 2008, Vietnam's road system was about 223,290 km long, 17,295 km of which were national roads at the best

2. PROFESSIONAL ACTIVITY AND EXPERIENCE

SAN DIEGO UNIFIED SCHOOL DISTRICT POLICY REGARDING ACCOMMODATIONS FOR PARENTS/GUARDIANS WITH DISABILITIES

Transcription:

Outline Big Data, Service Science, and Computational Science Service Science Ho Tu Bao Japan Advanced Institute of Science and Technology (JAIST) John von Neumann Institute, VNU-HCM Computational Science and Engineering 2 Dữ liệu nhiều quanh ta hơn bao giờ hết Big data là gì? Thư viện Alexandra (thế kỷ 3 trước CN) chứa toàn bộ kiến thức của loài người. Ngày nay, lượng thông tin trên toàn thế giới (khoảng 120 exabyte) đủ để chia cho mỗi đầu người một lượng nhiều gấp 320 lần lượng thông tin của thư viện Alexandria. Nếu ghi 120 exabyte vào đĩa CD và xếp chúng lên nhau, sẽ có 5 chồng CD và mỗi chồng đều chạm tới mặt trăng. Big data nói về các tập dữ liệu rất lớn và/hoặc rất phức, vượt quá khả năng xử lý của các kỹ thuật IT truyền thống. Volume: Lớn từ mức Terabytes đến Petabytes (10 15 bytes) cả Zetabytes (10 18 bytes) Variety: Sự phức tạp của dữ liệu, từ có cấu trúc, nửa cấu trúc đến không có cấu trúc (logs, văn bản thô, video, audio ) Velocity: Dòng chuyển động của các lượng dữ liệu rất lớn (tính động) Veracity: Tính tin cậy, độ chính xác, tính đúng đắn của dữ liệu. 3

Dữ liệu lớn đến từ đâu? Từ các phương tiện xã hội: Nhìn thấu (insights) được hành vi và ý kiến của khách hàng của công ty. Từ máy móc: Thiết bị công nghiệp, các sensors và dụng cụ giámsát,weblogs Từ giao dịch kinh doanh: ID và giá cả sản phẩm, thanh toán, dữ liệu chế tạo và phân bố,, Nhiều loại khác Each day: 230M tweets, 2.7B comments to FB, 86400 hours of video to YouTube Large Hadron Collider generates 40 terabytes/sec Amazon.com: $10B in sales in Q3 2011, US pizza chain Domino's: 1 million customers per day Dữ liệu lớn có thể rất nhỏ. Không phải mọi tập dữ liệu to đều lớn Big data can be very small. Not all large datasets are big Big liên quan tới độ phức tạp lớn nhiều hơn là kích thước lớn. Dữ liệu lớn nhưng lại nhỏ Lò hạtnhân,máybay cóhàngtrăm nghìn sensors sự phức tạp của việc tổ hợp dữ liệu các sensors này tạo ra? Dòng dữ liệu của tất cả các sensors là lớn mặc dù kích thước của tập dữ liệu là không lớn (một giờ bay: 100,000 sensors x 60 minutes x 60 seconds x 8 bytes nhỏ hơn 3GB). Tập dữ liệu to nhưng không lớn Số hệ thống dù tăng lên và tạo ra những lượng rất nhiều dữ liệu đơn giản. 5 MIKE2.0 6 Dữ liệu lớn trong bầu cử ở Mỹ 2012 From data mining to online organizing. Qua Facebook, Twitter và nhiều nguồn online khác, một chiến dịch không mệt mỏi nhằm tạo ra một cơ sở dữ liệu chứa tiểu sử riêng của các cử tri tiềm năng. Họ biết bạn đọc gì, mua sắm ở đâu, làm việc gì, bạn bè là ai. Thậm chí biết cả mẹ bạn lần trước bầu cho ai Big data across the federal government 29 March 2012, Retrieved 26 Sep 2012 84 different big data programs, 6 departments Defense: Autonomous systems (250M$/year) Homeland security: COE on visualization and data analytics (from natural disaster to terrorist incidents), Rutgers & Perdue Univ. Energy: High performance storage system to manage petabytes of data, mathematics for analysis of petascale data (machinelearning,statistics, ) Health and Human Services: Disease Control & Prevention Food and Drug Administration (FDA) National Aeronautics & Space Administration (NASA) More than 150 techies are quietly peeling back the layers of your life. Obama có 16 triệu Twitter followers so với 500,000 cuae Romney. Với Facebook, Obama có gần 27 triệu followers so với 1.8 triệu của Romney. 7 National Institutes of Health (NIH) National Science Foundation (NSF): Core techniques and technologies for advancing big data S&E. www.whitehouse.gov/ostp 8

Dữ liệu lớn cơ hội lớn Một số công ty rất lớn nổi tiếng về chế tạo chủ yếu phần cứng trong quá khứ về hiện đang dần thay đổi thành các công ty cung cấp dịch vụ, chẳng hạn như khoa học phân tích kinh doanh (business analytics). IBM spast: Chế tạo servers, desktop computers, laptops, và thiết bị cho hạ tầng cơ sở. IBM stoday:loại bỏ một số thiết bị phần cứng như laptops, và thay vào đó đầu tư hàng tỷ đôla để xây dựng và nhằm đạt được uy tín (credentials), cố gắng tạo dựng vị trí dẫn đầu trong phân tích kinh doanh. IBM đầu tư hàng tỷ đôla dùng SPSS trong thị trường phân tích kinh doanh để giành được (capture) thị phần bán lẻ. Đối với các kinh doanh thương mại lớn (large commercial ventures), IBM dùng Cognos để cung cấp toàn bộ phân tích dịch vụ. Công nghệ Dữ liệu lớn của Google Cloud Storage và BigQuery Google hiểu rất rõ quản lý và xử lý thế nào các lượng dữ liệu khổng lồ ở mức lớn hơn hầu hết các công ty khác có thể làm. Google xây dựng công nghệ riêng của mình cho việc phân tích nhanh và tương tác những lượng dữ liệu khổng lồ: BigQuery (nối với Tableau), Cloud Storage. http://www.wired.com/insights/2012/11/visualanalytics-brings-big-data-in-googles-cloud-to-life/ http://dawn.com/2012/07/25/big-data-big-analytics-big-opportunity/ 25July 2012 9 Google Data Center 10 Biến dữ liệu thành giá trị lớn Turning big data into value Dự báo về Dữ liệu lớn của Gartner Phân tích dữ liệu lớn cho phép các tổ chức giải quyết các bài toán phức tạp trước kia không thể làm được ra các quyết định và hành động tốt hơn. IT to spend $232B on Big Data over 5 years Các ưu thế cạnh tranh (Competitiveness advantages). Cung cấp những hiểu biết sâu (insights) về các hành vi phức tạp của xã hội con người. Đột phá (breakthrough) trong khoa học. etc. Data analysis vs. data analytics 11 12

Khoa học phân tích là gì? What are Analytics? Kinh doanh có phân tích và trí tuệ Business Intelligence & Analytics (BI&A) Degree of Intelligence Tối ưu Optimization Mô hình dự báo Predictive Modeling Kiểm định ngẫu nhiên Randomized Testing Mô hình thống kê Statistical models Cảnh báo (Alerts) Câu hỏi/đào sâu (Query/drill down) Báo cáo không thể thức (ad hoc reports) Báo cáo thông thường (standard reports) Đâu là khả năng tốt nhất có thể xảy ra? What s the best that can happen? Điều gì sẽ xảy ra tiếp? What will happen next? Điều gì xảy ra nếu ta thử việc đó? What happens if we try this? Tại sao điều này đang xảy ra? Why is this happening? Hành động nào là cần thiết? What actions are needed? Chính xác thì vấn đề là gì? What exactly is the problem? Bao nhiêu, thường xuyên thế nào, ở đâu? How many, how often, where? Điều gì đã xảy ra? What happened? Phân tích dự báo và cảnh báo Predictive and Prescriptive Analytics Phân tích mô tả Descriptive Analytics 1990s Late 2000s Recently emerging 13 14 Kinh doanh có phân tích và trí tuệ Business Intelligence & Analytics (BI&A) Cốt lõi của phân tích Dữ liệu lớn Visual Analytics Data Analytics Data Management 15 Source: WAMDM, Web group 16

Quản lý Dữ liệu lớn Big data management Mô hình hóa thưa Sparse modeling (NoSQL DB) Thương mại (RDBMS) Chọn và tạo ra một tập nhỏ các biến có khả năng dự đoán cao từ dữ liệu nhiều chiều. Dữ liệu không cấu trúc Dữ liệu cấu trúc Lasso regresion (Tibshirani, 1996) nơi sparsity và convexity gặp nhau. Nhiều mô hình đã dựa trên các biến thể của Lasso. Sparvexity (the marriage of sparsity and convexity) là một trong những phát triển ý nghĩa nhất của thống kê và máy học. Mã nguồn mở Source: Cisco 18 Nghiên cứu thiết kế vật liệu US Materials Genome Program to shorten the materials development cycle from its current 10-20 years to 2 or 3 years. Một mô hình cấu trúc tối ưu của vật liệu và các tính chất cần đạt là kết quả của một loạt các quá trình tối ưu liên quan các quan hệ nhiều biến phức tạp (rất khó xác định). Rút gọn số chiều Dimensionality reduction Là quá trình rút gọn số biến ngẫu nhiên, bởi (i) Chọn biến (variable selection), hoặc (ii) Tạo biến mới (variable extraction/construction). PCA,ICA,kernelPCA,kernelmethods Manifold learning Dùng hồi quy tuyến tính bội với bình phương tối thiểu và góc tối thiểu có điều chỉnh LASSO để xấp xỉ thưa trong không gian các cấu trúc và tính chất vật lý của vật liệu. 19 20

Mô hình đồ thị xác suất Probabilistic graphical models Graphical models Các trường hợp riêng của mô hình đồ thị xác suất Mô tả và biểu diễn các hệ thống phức tạp bằng các quan hệ xác suất giữa các biến ngẫu nhiên (biến hiện và biến ẩn). Cốt lõi: Tính mô-đun (modularity): hệ phức tạp = tổ hợp các phần đơn giản hơn. Probability Theory + Graph Theory Naïve Bayes classifier Probabilistic models Graphical models LDA Directed Undirected Hai nhiệm vụ chính Học (Learning): Cấu trúc và tham số của mô hình Suy diễn (Inference): Dùng các biến quan sát được để tính phân bố hậu nghiệm của các biến khác, v.v. PULMEMBOLUS INTUBATION PAP SHUNT MINOVL ANAPHYLAXIS TPR SAO2 FIO2 PVSAT INSUFFANESTH KINKEDTUBE VENTLUNG VENTALV ARTCO2 EXPCO2 HYPOVOLEMIA LVFAILURE CATECHOL LVEDVOLUME STROEVOLUME HISTORY ERRBLOWOUTPUT CVP PCWP CO HREKG HRSAT HRBP BP Monitoring Intensive-Care Patients MINVOLSET VENTMACH DISCONNECT VENITUBE PRESS HR ERRCAUTER 21 Mixture models Kalman filter model Murphy, ML for life sciences Bayes nets DBNs Hidden Markov Model (HMM) MRFs MaxEnt Conditional random fields 22 Outline Dịch vụ ở 10 nước có dân số lớn nhất Service sector in top 10 countries by workforce size Service Science Computational Science and Engineering 23 http://www.nationmaster.com 24

Nền tảng của Khoa học Dịch vụ Background of Service Science Cách tân trong công nghệ mới và dịch vụ New technologies and services in innovation GDP of developed countries (US, Japan, Europe) exceed more than 70% Global trend of emphasizing service business in information/manufacturing industry (IBM, HP, GE) IBM announced the concept of SSME (Service Science, Management and Engineering) Importance of education and research on service science in university(us, Europe, China, Japan) Utilization of strong points in Japanese industries such as high productivity in manufacturing and Japanese hospitality in traditional service industries New technologies Human needs in daily life and business Driving force Innovation Driving force Social and business environment New services 25 26 Tầm quan trọng của Khoa học Dịch vụ Importance of Service Science Dữ liệu lớn trong các hệ dịch vụ Big Data in a service system: key idea Value Creation Value creation required in business & society Globalization Information society Servitization Aging society Value creation by Service Science Innovation, System science, Big data, Human science Customers Analysis of customers Analysis of customer profile data, behavior, opinion, satisfaction, etc. Collaboration Co-creation of service value Offering the access, transparency to information, dialogs and risk analysis Service providers Optimization of service Integrating heterogeneous sources, simulation-based data mining, data assimilation Value creation by product & technology Commoditization of technology, product Big Data 20 th century 21th century 27 28

Quản trị quan hệ khách hàng Customer Relationship Management (CRM) Công nghệ hỗ trợ CRM thế nào? How can technology support CRM? Khoa học về sự sống (life science) và CRM là hai lĩnh vực tiêu biểu nhất của khai phá dữ liệu (data mining). Lịch sử của CRM User groups? Reviews? Does anyone listen to what they have to say? B&S RM CIMS CRM e-crm Time line Late80 s Early90 s Mid90 s 2002 - Future User reviews? Fans? Opinions? B&S Buying & Selling RM Relationship Marketing CIMS Customer Information Management Systems CRM Customer Relationship Management e-crm- A subset of CRM that focuses on enabling customer interactions via e-channels (the web, email, wireless, facebook, twitter, etc.) Oh, over 1000 comments on the product demo. Does their blog enlighten me In any way? Data mining: the next generation. Dagstuhl Seminar Proc. (2005) 29 Reference: CustomerKING, Big Data Bring Big Value to the Social CRM, SocialBusiness Forum, 2012 30 Outline Khoa học có mấy chân? Science Theory Computational Science Data- Intensive Science Experimentation Service Science Jim Gray (1944-2007) Computational Science and Engineering 31 CACM, Dec. 2010 CACM, Sep. 2010 Computational science (using math and computation to do work in other sciences) vs. Computer science (making hardware and software for computation) 32

Computational science (CS) Computational science and engineering (CSE) Ba thành phần của khoa học tính toán: Mô hình và mô phỏng Khoa học máy tính: mạng, phân tích dữ liệu Hạ tầng cơ sở (siêu máy tính) Model and Modeling Model: Mô tả khái quát của một thực thể (simplified presentation or abstraction of a reality). Modeling: Quá trình tạo ra một mô hình. Mô phỏng: Là việc tạo ra như thật trên máy tính các thực thể sao cho có thể thấy chúng xảy ra thế nào. CSE: việc phát triển và ứng dụng các mô hình tính toán và mô phỏng, thường gắn với các siêu máy tính để giải quyết các bài toán phức tạp trong phân tích và thiết kế kỹ thuật cũng như với các hiện tượng tự nhiên. Source: PITAC report and SIAM Mathematics CSE Science & Engineering Computer Science 33 DNA model figured out in 1953 by Watson and Crick Modeling Data Analysis Simulation Competition on supercomputers Science paradigms June 2012: SuperMUC, Europe fastest, 2.9 peteflops, 18432 processors. Nov. 2012: Cray s Titan computer, 17.59 petaflops, 560640 processors. June 2012: Japan s K computer, 10.51 petaflops, 88128 processors June 2013: China Tianhe-2 33.86 petaflops, 3,120,000 Intel cores 35 Hàng nghìn năm trước: khoa học là thực nghiệm Mô tả các hiện tượng thiên nhiên Vài trăm năm vừa qua: thêm nhánh lý thuyết Dùng các mô hình, các khái quát hóa Vài thập kỷ vừa qua: thêm nhánh tính toán Mô phỏng các hiện tượng phức tạp Ngày nay: Khai thác dữ liệu (escience) Hợp nhất lý thuyết, thực nghiệm và mô phỏng Dữ liệu từ đo đạc bằng máy hoặc mô phỏng Được xử lý bởi các phần mềm Thông tin và tri thức được chứa trong máy tính Nhà khoa học phân tích cơ sở/tệp dữ liệu với công cụ quản trị dữ liệu và thống kê. The Four Paradigm: Data-Intensive Scientific Discovery, 2009

Một số vấn đề quốc gia Some national-level problems Đột phá trong khoa học Scientific breakthroughs Phòng chống thảm hoạ thiên nhiên, ảnh hưởng của biến đổi khí hậu (river flow, flood forecasting, ocean simulation, soil erosion...) Đánh giá sự cố rủi ro của các hệ thống lớn như các lò hạt nhân, nhà máy thuỷ điện, hệ thốngngânhàng CSE trong quốc phòng, xã hội... 37 Khoa học về sự sống, y-sinh: mô hình và dự đoán sự phát tán bệnh, chống bệnh sốtrét Khoa học và công nghệ vật liệu: Phát triển các mô hình vật liệu nhiều tỷ lệ (multi-scale) để từ hiểu các cấu trúc nano đến các ứng dụng kỹ thuật chế các vật liệu nano. Tài chính tính toán: quản lý rủi ro trong đầu tư và thị trường, dự đoán và mô phỏng các kịch bản và phương án kinh tế. Future work SHIFT IN MEDICINE RESEARCH Molecular medicine is essentially based on learning from omics data SHIFT IN MEDICINE RESEARCH Black Scholes European Call Option Pricing Surface 38 Quan hệ giữa ba lĩnh vực Relationship between three domains Big data cần cách nhìn, phương pháp và máy tính mạnh của KH&KHTT và khai phá dữ liệu. Lời giải có thể rất khác nhau: mô hình tốt, chương trình thông minh, siêu máy tính, hoặc tất cả chúng. Việc cùng tạo ra giá trị của dịch vụ đòi hỏi phân tích những quan hệ phức tạp và khai thác mọi nguồn dữ liệu và năng lực tính toán. One size does not fit all Dữ liệu lớn, Khoa học dịch vụ, Khoa học và Kỹ thuật tính toán là các lĩnh vực đang nổi lên và ảnh hưởng tới tương lai, và chúng có nhiều quan hệ với nhau. Không có giải pháp vạn năng. Với mỗi bài toán, mỗi tình huống của big data, Khoa học dịch vụ hay KH&KTTT, cần tìm ra lời giải thích hợp nhất có thể. Tại sao và làm thế nào ở Việt Nam? Phải chăng cần quan tâm hơn tới Data Analytics trong khi chuẩn bị cho Big Data Analytics? Big data và service science đòi hỏi những mô hình toán học tốt, công cụ phân tích và siêu máy tính. KH&KTTT làm giàu thêm giá trị của big data và service science. 39 Thanks 40