Khai thác sử dụng dữ liệu lớn

(25/05/2018)
Mục đích cuối cùng của thu thập, lưu trữ và phân tích dữ liệu là để hỗ trợ việc ra quyết định tốt hơn, cho dù những quyết định này được thực hiện bởi một người điều hành trong một văn phòng, một robot trong nhà máy, hoặc một người nào đó ở nhà. Tự động hóa dựa vào dữ liệu có thể đơn giản hóa các quyết định được thực hiện bởi các robot, trong khi thông tin được tổ chức sử dụng các hệ thống hỗ trợ ra quyết định, trực quan hóa dữ liệu và các công nghệ ánh xạ có thể hỗ trợ con người.


Hỗ trợ ra quyết định

Hệ thống hỗ trợ ra quyết định là các công cụ tương tác giúp người sử dụng đưa ra các quyết định tốt hơn và nhanh hơn trong các môi trường phức tạp, đa biến. Hệ thống hỗ trợ ra quyết định sử dụng các mô hình và các mô phỏng để dự đoán các kết quả và sau đó đưa ra các khuyến nghị cho người ra quyết định. Ví dụ, một nhà quản lý xây dựng có thể sử dụng hệ thống hỗ trợ ra quyết định giúp chọn nhà thầu phụ có sự kết hợp tốt nhất giữa rủi ro và doanh thu cho một dự án nhất định.

Những hệ thống như vậy đặc biệt phổ biến ở các bệnh viện, nơi các hệ thống hỗ trợ ra quyết định lâm sàng có thể sử dụng thông tin của bệnh nhân để cảnh báo cho bác sĩ nếu một đơn thuốc ảnh hưởng đến các loại thuốc khác hay các bệnh khác. Các hệ thống hỗ trợ ra quyết định cũng có thể được sử dụng trong nhiều lĩnh vực khác, bao gồm cả giám sát môi trường. Ví dụ, hệ thống hỗ trợ ra quyết định cho an toàn hàng hải ở Địa Trung Hải đã được thiết kế cho các chính phủ thành viên của EU để giúp giảm thiểu những rủi ro tràn dầu ở Địa Trung Hải. Do các kỹ thuật phân tích dữ liệu như lập mô hình dự báo và xử lý ngôn ngữ tự nhiên tiếp tục phát triển, khả năng của các hệ thống hỗ trợ ra quyết định cũng phát triển theo.

Tự động hóa

Trong khi nhiều phân tích dữ liệu được triển khai để giúp con người đưa ra các quyết định chính xác hơn, dữ liệu cũng có thể được sử dụng để kích hoạt các hoạt động tự động trong hệ thống máy tính và robot. Ví dụ, Nest, máy điều nhiệt thông minh, có thể sử dụng dữ liệu cảm biến để xác định khi ngôi nhà có người và điều chỉnh hệ thống sưởi và làm mát của ngôi nhà một cách thích hợp. Xe ô tô tự lái của Google có thể nhận dữ liệu về các điều kiện đường sá và luồng giao thông để điều hướng hiệu quả và tránh va chạm. Một báo cáo năm 2013 của công ty nghiên cứu thị trường Markets and Markets dự đoán rằng thị trường giao tiếp máy-máy sẽ đạt 290 tỷ USD năm 2017, tăng 650% so với năm 2011.

Máy học, một ngành của khoa học máy tính liên quan đến các hệ thống có hiệu suất được cải thiện bằng việc bổ sung dữ liệu mới, cung cấp các phương pháp ra quyết định tự động trong một loạt các ứng dụng. Máy học đã được sử dụng rộng rãi trong khoa học người máy, chẳng hạn như thị giác máy tính và hoạt động tự động trong các môi trường nhà máy, cũng như trong các hệ thống khuyến nghị trực tuyến, chẳng hạn như những hệ thống được sử dụng bởi dịch vụ nhạc trực tuyến Spotify và trang web hẹn hò trực tuyến OKCupid. 

Trực quan hóa

Một cách để các nhà khoa học dữ liệu có thể truyền tải phân tích của họ đến người ra quyết định là thông qua trực quan hóa. Trực quan hóa được sử dụng trong một loạt các lĩnh vực và có thể từ các đồ thị đường đơn giản giá cổ phiếu đến các sơ đồ mạng xã hội phức tạp cho thấy sự lây lan của bệnh dịch. Trong các trường hợp nơi các mẫu trong dữ liệu có thể được xác định dễ dàng hơn khi dữ liệu được hiển thị, trực quan hóa cũng có thể được sử dụng để tiến hành phân tích dữ liệu. Trực quan hóa dữ liệu được đưa vào nhiều công cụ phần mềm phân tích kinh doanh, chẳng hạn như Tableau. Các nền tảng và ngôn ngữ chuyên dụng dành cho các ứng dụng cụ thể, chẳng hạn như Gephi cho mạng và hiển thị đồ thị và xử lý hiển thị tương tác. Ngôn ngữ lập trình Javascript rất phổ biến để các ứng dụng tùy chỉnh hiển thị dữ liệu, cung cấp các thư viện mã nguồn mở, được sử dụng rộng rãi như D3.

Các ứng dụng ánh xạ đã thúc đẩy sự phát triển rộng rãi phần mềm các hệ thống thông tin địa lý (GIS), cho phép các đặc trưng không gian được tích hợp vào phân tích dữ liệu. Có các công nghệ chuyên dụng cho tất cả các khía cạnh của đổi mới dựa vào dữ liệu không gian địa lý, bao gồm các cơ sở dữ liệu, máy chủ và các công cụ trực quan hóa. Các nhà cung cấp phần mềm độc quyền chính bao gồm ESRI (nhà cung cấp ArcGIS), Google (nhà cung cấp Google Maps, Earth và Street View) và Oracle (nhà cung cấp Spatial and Graph). Các dịch vụ GIS mã nguồn mở, chẳng hạn như những dịch vụ được công ty công nghệ không gian địa lý MapBox tạo ra, cũng đang phát triển ngày càng phổ biến. Các công cụ từ những nhà cung cấp trên đang được sử dụng rộng rãi trong ngành công nghiệp và chính phủ. Ví dụ, chính quyền Obama đã sử dụng phần mềm GIS để bổ sung thêm các lớp dữ liệu và tính tương tác vào các bản đồ trên trang web Recovery.gov của mình.

Trình bày thông tin theo cách mà mọi người có thể tiếp thu nó một cách hiệu quả là một thách thức quan trọng cần phải được đáp ứng nếu phân tích dữ liệu là để dẫn đến hành động cụ thể. Loài người đã tiến hóa để đạt hiệu quả cao trong nhận thức một số loại mô hình với các giác quan của mình nhưng vẫn tiếp tục phải đối mặt với những hạn chế đáng kể trong khả năng của bản thân để xử lý các loại dữ liệu khác như số lượng lớn các dữ liệu số hoặc văn bản. Vì lý do này, hiện nay có một lượng lớn nghiên cứu và đổi mới trong lĩnh vực trực quan hóa, ví dụ, các kỹ thuật và công nghệ được sử dụng để tạo ra các hình ảnh, sơ đồ, hoặc hình ảnh động để giao tiếp, hiểu và cải thiện kết quả của phân tích dữ liệu lớn. Dưới đây là một số ví dụ về lĩnh vực quan trọng và đang phát triển hỗ trợ dữ liệu lớn.

- Đám mây từ khóa (Tag cloud)

Văn bản của một báo cáo hiển thị dưới hình thức một đám mây thẻ (từ khóa), có thể là một danh sách các từ được đánh giá mức độ quan trọng, trong đó các từ xuất hiện thường xuyên nhất được hiển thị lớn hơn và các từ ít xuất hiện thường xuyên hơn sẽ được hiển thị nhỏ hơn. Đây là cách trực quan giúp người đọc lĩnh hội nhanh chóng các khái niệm nổi bật nhất trong một văn bản dài.

- Clustergram

Clustergram là một kỹ thuật trực quan hóa được sử dụng cho phân tích cụm, hiển thị các thành phần riêng của một tập dữ liệu được gán thành các cụm khi số lượng các cụm tăng lên. Sự lựa chọn số cụm là một tham số quan trọng trong phân tích cụm. Kỹ thuật này cho phép các nhà phân tích có được sự hiểu biết tốt hơn về cách các kết quả của cụm khác với số khác của các cụm.

- Dòng lịch sử

Dòng lịch sử là một kỹ thuật trực quan hóa lập các biểu đồ tiến hóa của một tài liệu khi nó được biên tập bởi nhiều tác giả. Thời gian nằm trên trên trục hoành, trong khi những đóng góp vào văn bản nằm trên trục tung; mỗi tác giả có một mã màu khác nhau và chiều dài của trục tung biểu thị số lượng văn bản được viết bởi mỗi tác giả. Bằng cách trực quan hóa lịch sử của một tài liệu theo cách này, những hiểu biết khác nhau dễ dàng xuất hiện.

- Dòng thông tin không gian

Một kỹ thuật trực quan hóa khác là kỹ thuật mô tả các dòng thông tin không gian. Ví dụ chúng tôi chỉ ra ở đây có tên gọi New York Talk Exchange. Nó cho thấy lượng dòng dữ liệu của giao thức Internet giữa New York và các thành phố trên khắp thế giới. Kích thước của ánh sáng trên một vị trí thành phố cụ thể tương ứng với tổng lưu lượng IP lưu thông giữa các nơi đó và TP. New York; ánh sáng càng sáng hơn, dòng lưu thông càng lớn. Sự trực quang hóa này cho phép chúng ta xác định một cách nhanh chóng thành phố nào được kết nối chặt chẽ nhất với New York về khối lượng thông tin liên lạc của chúng.

Theo vista

Tin khác