Bài học cùng chủ đề
Báo cáo học liệu
Mua học liệu
Mua học liệu:
-
Số dư ví của bạn: 0 coin - 0 Xu
-
Nếu mua học liệu này bạn sẽ bị trừ: 2 coin\Xu
Để nhận Coin\Xu, bạn có thể:
Bài 27. Máy tính và Khoa học dữ liệu SVIP
1. Vai trò của máy tính đối với sự phát triển của Khoa học dữ liệu
Qui trình Khoa học dữ liệu là chuỗi các bước được thực hiện để nghiên cứu, phân tích và khám phá tri thức từ dữ liệu.
Máy tính có vai trò không thể thiếu trong mọi giai đoạn của qui trình khoa học dữ liệu, được nhìn nhận từ nhiều góc độ khác nhau:
- Xử lí và lưu trữ dữ liệu: Máy tính cung cấp công cụ và phương tiện để xử lí, lưu trữ và quản lí khối lượng lớn dữ liệu. Đem lại sức mạnh tính toán để làm việc với dữ liệu lớn (đặc trưng 5V) từ các cơ sở dữ liệu đến hệ thống tệp phân tán.
- Phân tích và khai phá dữ liệu: Máy tính là phương tiện thực hiện các thuật toán, huấn luyện và kiểm nghiệm các mô hình học máy, nhằm khám phá tri thức từ dữ liệu, đưa ra dự đoán và xác định các mẫu.
- Trực quan hoá dữ liệu: Máy tính cho phép tạo ra các biểu diễn dữ liệu trực quan, giúp khám phá và trình bày những phát hiện dễ dàng hơn. Hoặc tạo nhiều loại biểu đồ, đồ thị và báo cáo tổng quan có khả năng tương tác.
- Tự động hoá: Máy tính có khả năng trợ giúp việc tự động hoá nhiều tác vụ (ví dụ hoạt động làm sạch dữ liệu và huấn luyện mô hình), giảm thiểu các lỗi nảy sinh do các thao tác thủ công và tăng tốc quá trình xử lí, phân tích.
- Xử lí song song: Máy tính với bộ xử lí đa lõi, các siêu máy tính hoặc hệ thống tính toán phân tán có thể xử lí dữ liệu song song, giảm đáng kể thời gian cần thiết để phân tích, đặc biệt là khi xử lí dữ liệu lớn.
- Điện toán đám mây: Nền tảng đám mây cung cấp tài nguyên tính toán, bao gồm các dịch vụ và cơ sở hạ tầng đa dạng, cho phép các thực hiện việc phân tích dữ liệu mà không cần đầu tư vào phần cứng và những cơ sở hạ tầng đắt tiền
- Hợp tác và truyền thông: Máy tính hỗ trợ đắc lực cho việc phối hợp, cộng tác khoa học, truyền đạt những phát hiện tới các bên liên quan.
2. Tính ưu việt trong việc sử dụng máy tính và thuật toán hiệu quả để xử lí dữ liệu lớn
Tính ưu việt của việc sử dụng máy tính và các thuật toán hiệu quả trong xử lí khối dữ liệu lớn được thể hiện qua khả năng lưu trữ, xử lí, phân tích, khai phá dữ liệu ấy một cách nhanh chóng, nhất quán và hiệu quả.
Dự án Hệ gene người (Human Genome Project - HGP) là ví dụ tiêu biểu minh họa nội dung trên.
Mục đích là khám phá bí mật về cấu trúc di truyền của con người bằng cách xác định tất cả các nucleotide trong hệ gene.
Đem lại cho hiểu biết sâu rộng về di truyền học, mở đường cho sự phát triển của y học.
Một vài số liệu cụ thể về dự án:
- Kích thước dữ liệu: Chuỗi gene người có độ dài khoảng 107,8 tỉ km, giải toàn bộ hệ gene tạo ra hàng trăm gigabyte dữ liệu thô.
- Lưu trữ dữ liệu: Ước tính dung lượng lưu trữ cho kết quả phân tích HGP khoảng một trăm nghìn gigabyte.
- Sức mạnh xử lí: Dự án sử dụng mạng lưới siêu máy tính trên khắp thế giới. Tương đương hàng nghìn máy tính xách tay hiện đại hoạt động đồng thời.
Tính ưu việt của máy tính và thuật toán hiệu quả cho HPG được thể hiện:
- Tốc độ và hiệu quả: Đẩy nhanh đáng kể quá trình phân tích dữ liệu.
- Độ chính xác: Giảm nguy cơ sai sót do con người.
- Xử lí dữ liêu: Đảm bảo tính nhất quán trong khám phá tri thức, tăng hiệu quả khao học.
- Giải thích dữ liệu: Các thuật toán phức tạp giải thích dẽ dàng các gene.
- Phân tích thời gian thực: Đưa ra quyết đinh nhanh chóng.
- Xử lí song song: Xử lí nhiều luồng dữ liệu trong cùng thời điểm.
- Khả năng mở rộng: Cơ sở hạ tầng được thiết kế để xử lí quy mô và độ phức tạp của dữ liệu bộ gene.
Bạn có thể đăng câu hỏi về bài học này ở đây