Data Warehouse là gì? Kiến thức cơ bản về Data Warehouse và ứng dụng thực tế

Data Warehouse là gì? Kiến thức cơ bản về Data Warehouse và ứng dụng thực tế

data warehouse là gì

Data Warehouse là gì? Doanh nghiệp cần nắm những nội dung cơ bản nào về Data Warehouse? Ứng dụng Data Warehouse trong thực tế thế nào? Đây là những nội dung về  được các doanh nghiệp rất quan tâm trong thời gian gần đây, đặc biệt trong thời đại 4.0, năng lực hiểu về dữ liệu và khách hàng sẽ giúp cho doanh nghiệp tăng năng lực cạnh tranh và đứng vững trên thị trường.

Bài viết sau đây sẽ làm rõ về Data Warehouse là gì và các nội dung liên quan đến Data Warehouse mà độc giả quan tâm.

Data Warehouse là gì?

data warehouse là gì

Theo dịch nghĩa Anh – việt thì Data Warehouse có nghĩa là kho dữ liệu.

Theo Wikipedia, Data Warehouse là kho dữ liệu tập trung chuyên dùng cho tạo báo cáo và phân tích dữ liệu. Data Warehouse hỗ trợ các truy vấn phức tạp, vừa là điểm tập trung dữ liệu từ nhiều nguồn khác nhau để có được thông tin phân tích đầy đủ nhất. Theo đó Data Warehouse là một tập hợp dữ liệu hướng chủ đề, toàn vẹn, không bị rò rỉ mất mát và có giá trị lịch sử.

Data Warehouse cho phép người dùng ở mức quản lý ra quyết định thực hiện các phép phân tích tương tác với data bằng hệ thống xử lý phân tích trực tuyến (online analytical processing – OLAP).

Ngoài ra Data Warehouse được dùng cho báo cáo, data mining và phân tích thống kê. Database và Data Warehouse, do đó chỉ khác nhau về mặt khái niệm, một Database nếu dùng riêng cho các mục đích trên cũng được coi là Data Warehouse.

Như vậy, nếu như Database được ví như cái tủ sách cá nhân, nơi người ta thường xuyên tra cứu, cập nhật, hiệu đính, ghi chú vào lề, thêm mới hoặc chuyển sách đi, thì Data Warehouse lại được so sánh với thư viện quốc gia, nơi các tài liệu kinh điển được đưa đến liên tục để lưu trữ và tham khảo, không ai sửa chữa hoặc chuyển chúng qua chỗ nào khác cả.

Data Warehouse có khả năng lưu trữ tới hàng trăm GB hay thậm chí hàng Terabyte. Data Warehouse được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước.

Mục tiêu chính của Data Warehouse là truy cập và xử lý thông tin, dữ liệu một cách dễ dàng quen thuộc cho người sử dụng. Có tính thống nhất quán cùng một hệ thống thông tin nhưng các nguồn khác nhau trình bày theo nhiều kiểu và có một chút sai lệch. Tính năng bảo mật cao, dù tiếp nhận thông tin từ nhiều nguồn khác nhau nhưng vẫn đảm bảo được thông tin.

Lịch sử hình thành Data Warehouse

data warehouse là gì

Kho dữ liệu (data warehouse) là khái niệm được giới thiệu lần đầu vào năm 1988 bởi 2 nhà nghiên cứu của IBM là Barry Devlin và Paul Murphy.

Đây là nơi lưu trữ dữ liệu bằng thiết bị điện tử của một tổ chức, doanh nghiệp, nhằm hỗ trợ việc phân tích dữ liệu và lập báo cáo. Đó là cách hiểu theo truyền thống tại thời điểm khái niệm kho dữ liệu này ra đời.

data warehouse là gì

Ngày nay, người ta hiểu “kho dữ liệu” theo ngữ cảnh rộng hơn, bao gồm tập các phương pháp, kỹ thuật và công nghệ có thể kết hợp, hỗ trợ nhau để thu thập và quản lý dữ liệu từ nhiều nguồn, môi trường khác nhau để cung cấp thông tin cho người sử dụng.

Do đó, kho dữ liệu còn có thể được gọi bằng những cái tên sau: hệ thống hỗ trợ quyết định, hệ thống điều hành thông tin, hệ thống thông tin quản lý, ứng dụng phân tích. Kho dữ liệu thường có dung lượng lên đến hàng trăm GB thậm chí tính bằng đơn vị TB.

Kiến trúc tổng thể của Data Warehouse là gì?

data warehouse là gì

Data Warehouse có kiến trúc cơ bản rất đơn giản. Nó dựa trên nguyên tắc là xây dựng một kho dữ liệu thống nhất từ nhiều nguồn dữ liệu khác nhau để phục vụ truy vấn gồm 3 lớp chính:

1. Lớp dữ liệu nguồn (Data Sources):

  • Data Warehouse tổng hợp dữ liệu từ rất nhiều nguồn khác nhau. Điều này thể hiện đặc tính tích hợp của Data Warehouse.
  • Dữ liệu nguồn có thể là dữ liệu có sẵn trong hệ thống tác nghiệp của doanh nghiệp và cũng có thể là dữ liệu lấy từ nguồn bên ngoài doanh nghiệp.
  • Dữ liệu có thể là loại có cấu trúc chặt chẽ như dữ liệu quan hệ đã được chuẩn hoá hay có thể là loại phi cấu trúc như các văn bản thông thường.

2. Lớp Warehouse:

  • Lớp này chứa đựng dữ liệu đã được tổng hợp cùng siêu dữ liệu mô tả chúng cũng như các tiến trình tổng hợp, phân bổ dữ liệu.
  • Hai thành phần quan trọng nhất của lớp Warehouse là dữ liệu và siêu dữ liệu. Chúng phải được lưu giữ và mô tả nhất quán về nội dung (ý nghĩa dữ liệu) cũng như hình thức (khuôn dạng dữ liệu).

3. Lớp Users:

  • Có nhiệm vụ tương tác với người dùng cuối.
  • Data Warehouse có đặc điểm quan trọng là cung cấp thông tin cho rất nhiều người sử dụng với những yêu cầu không thể dự đoán trước, vì vậy nhìn chung lớp người dùng có cấu trúc phức tạp. Hơn nữa, người dùng ở đây có thể sử dụng nhiều công cụ khai thác và truy xuất dữ liệu khác nhau nên giao diện giữa lớp Warehouse và người dùng cũng đa dạng.

Các chức năng của Data Warehouse là gì?

data warehouse là gì

1. Cung cấp một góc nhìn toàn diện về doanh nghiệp:

  • Kho dữ liệu là nơi đã tập hợp (tích hợp) được mọi thông tin về các mảng nghiệp vụ khác nhau để cung cấp một góc nhìn toàn diện.
  • Việc tích hợp này còn cung cấp khả năng đánh giá chéo các mảng nghiệp vụ khác nhau để đánh giá sự tương quan giữa chúng.

2. Cung cấp đầy đủ thông tin hiện tại và lịch sử của doanh nghiệp, và sẵn sàng cho việc khai thác, sử dụng cho việc hỗ trợ ra quyết định chiến lược.

  • Từ thông tin ở đây thể hiện dữ liệu ở trong kho không chỉ đơn thuần là dữ liệu thô lấy từ các hệ thống tác nghiệp mà nó đã được tổng hợp, tính toán thành các độ đo có ý nghĩa phân tích.

3. Có khả năng cung cấp dữ liệu chi tiết theo nhu cầu mà không phải truy xuất các hệ thống tác nghiệp:

  • Điều này thể hiện trong một số trường hợp có thể nhu cầu phân tích dữ liệu ở mức giao dịch, thì nó cũng sẽ được lưu sẵn ở Kho dữ liệu.

4. Đảm bảo thông tin trong Kho dữ liệu có tính nhất quán:

  • Ví dụ doanh nghiệp có nhiều nghiệp vụ được quản lý với các hệ thống tác nghiệp khác nhau, nhưng cần đảm bảo ánh xạ được một khách hàng xuất hiện ở nhiều hệ thống về 1 người duy nhất.
  • Điều này áp dụng cho các đối tượng dữ liệu khác. Ngoài ra một trường dữ liệu có thể được biểu diễn bằng nhiều cách khác nhau, ví dụ Tên khách hàng có hệ thống tách họ và tên thành 2 trường khác nhau, có hệ thống chỉ lưu trong 1 trường. Khi tổng hợp về Kho dữ liệu thì sẽ được chuyển về 1 dạng thống nhất.

5. Là nguồn thông tin chiến lược mềm dẻo và có tính tương tác:

  • Chữ mềm dẻo và tương tác ở đây thể hiện người dùng có thể lấy các thông tin khác nhau của cùng một đối tượng.
  • Từ tương tác ở đây thể hiện có thể thực hiện được nhiều thao tác với các đối tượng dữ liệu thay vì trả lại một danh sách tĩnh.
  • Ví dụ có thể lấy dữ liệu tổng hợp theo ngày, theo tuần, theo tháng của cùng 1 đối tượng dữ liệu.
  • Tính tương tác thể hiện người dùng có thể áp dụng các thao tác phân tích dữ liệu, một ví dụ là nền tảng phân tích dữ liệu SQL Server Analysis Services (SSAS) cho phép người dùng có thể tương tác để phân tích dữ liệu.

Đặc điểm của Kho dữ liệu (Data Warehouse) là gì?

data warehouse là gì

Dữ liệu được lưu trong Kho dữ liệu không được tạo ra trực tiếp từ người dùng mà được lấy từ các nguồn dữ liệu sẵn có và mục đích là phục vụ tạo ra các báo cáo quản trị do đó nó có các tính chất sau:

1. Hướng chủ đề (subject-oriented):

  • Mục đích của Kho dữ liệu là phục vụ các yêu cầu phân tích, hoặc khai phá cụ thể được gọi là chủ đề.
  • Ví dụ với chủ đề phân tích nhân sự thì có thể bao gồm các độ đo về doanh thu của từng người, số ngày nghỉ trong tháng, số dự án tham gia trong tháng, theo các chiều phân tích: thời gian, chi nhánh, sản phẩm, …

2. Được tích hợp (integrated):

  • Tại doanh nghiệp, dữ liệu cần để phân tích có thể nằm rải rác ở nhiều hệ thống tác nghiệp khác nhau, và vì vậy cần tích hợp lại.
  • Quá trình tích hợp này sẽ được thực hiện trong quá trình ETL
  • Việc tổng hợp dữ liệu từ nhiều nguồn vào một kho dữ liệu cho phép chúng ta có thể xem đồng thời nhiều nhóm chỉ tiêu khác nhau (từ nhiều hệ thống nghiệp vụ khác nhau), ví dụ ta có thể xem chỉ tiêu doanh thu ở nhiều mảng nghiệp vụ khác nhau để có thể so sánh được sự tương quan giữa các mảng nghiệp vụ này.

3. Có gán nhãn thời gian (time variant):

  • Các dữ liệu khi lưu sẽ được gán 1 nhãn thời gian tương ứng.
  • Cùng một độ đo sẽ có nhiều giá trị khác nhau trong lịch sử có thể dùng để so sánh với nhau để biết được sự thay đổi là tốt hay xấu.
  • Ví dụ, độ đo doanh thu của một mặt hàng của tháng hiện tại, nếu đem so sánh với doanh thu của mặt hàng đó trong tháng trước, tháng này năm trước thì sẽ có nhiều thông tin hơn để đánh giá doanh thu của mặt hàng đó là tốt hay không, trên cơ sở đó sẽ có các quyết định phù hợp. Ngoài ra, dữ liệu lịch sử còn cho phép dự báo được tương lai khi ứng dụng khai phá dữ liệu.

4. Bất biến (non-volatile):

  • Khác với các cơ sở dữ liệu (CSDL) giao dịch, nơi thông tin của một đối tượng có thể được cập nhật thay đổi hàng ngày, dữ liệu trong Kho dữ liệu có chức năng báo cáo lại các chỉ số về hoạt động kinh doanh thực tế đã xảy ra.
  • Do đó dữ liệu trong Kho dữ liệu không thể cập nhật, thay đổi vì nó sẽ không phản ánh đúng thực tế.
  • Do đó với kho dữ liệu chỉ có 2 thao tác chính là tải dữ liệu vào kho và truy cập (đọc) dữ liệu từ kho.

Lợi ích của data warehouse là gì?

data warehouse là gì

Sự ra đời của kho dữ liệu nhằm đáp ứng khối lượng dữ liệu cần được xử lý ngày càng nhiều; nhu cầu lưu trữ dữ liệu phát triển khi các hệ thống máy tính trở nên phức tạp hơn.

Cụ thể, kho dữ liệu sẽ đem lại các lợi ích sau đây cho các doanh nghiệp:

  • Tích hợp dữ liệu lại về một nguồn, cùng một định dạng, giải quyết tính phân mảnh và rời rạc của dữ liệu nhằm đáp ứng mọi yêu cầu về thông tin của người sử dụng
  • Tiết kiệm thời gian và hiệu quả khi tìm thấy dữ liệu cần thiết
  • Giúp việc sử dụng dữ liệu của doanh nghiệp trở nên hiệu quả hơn bằng tính năng xử lý và phân tích dữ liệu
  • Hỗ trợ người sử dụng đưa ra những quyết định hợp lý, nhanh chóng, năng suất cao hơn; thu được lợi nhuận cao hơn…
  • Giúp cho tổ chức, xác định, quản lý và điều hành những dự án, những nghiệp vụ một cách hiệu quả và chính xác.
  • Giúp tăng cường khối lượng dữ liệu cần được tổng hợp, lưu trữ và xử lý lên đáng kể

Các lĩnh vực ứng dụng data warehouse là gì

data warehouse là gì

Hiện kho dữ liệu đã được ứng dụng rộng rãi trong các doanh nghiệp thuộc nhiều lĩnh vực khác nhau, cụ thể ta có thể kể đến:

  • Hàng không: Xây dựng hệ thống quản lý các công việc hàng không; như quản lý tuyến bay, lịch bay, phân công phi hành đoàn, quản lý các chương trình ưu đãi dành cho khách hàng…
  • Ngân hàng: quản lý dòng tiền, quản lý các quỹ đầu tư, cho vay, thời hạn thanh toán…
  • Y Dược: quản lý thông tin bệnh nhân, tình trạng bệnh án, phác đồ điều trị; đơn thuốc được kê cho họ, thời gian điều trị bệnh…
  • Bảo hiểm: phân tích xu hướng của khách hàng; và để theo dõi sự thay đổi của thị trường một cách nhanh chóng
  • Bán lẻ: quản lý mặt hàng nhập vào bán ra, quản lý chuỗi phân phối; xác định mô hình mua hàng của khách hàng, các chương trình khuyến mãi cũng như các chính sách giá
  • Giáo dục: quản lý thông tin học sinh giáo viên công nhân viên của trường, quản lý quá trình học tập, giáo án, bài giảng, kết quả học tập của học sinh…; Là nền tảng để xây dựng các phần mềm dạy học hiện nay.
  • Quản lý quan hệ khách hàng: tổng hợp, xử lý, phân tích; và giúp dự đoán insight của khách hàng và xu hướng thị trường trong tương lai
  • Thương mại điện tử: là lĩnh vực có sự ứng dụng rõ rệt nhất của kho dữ liệu; thông qua việc quản lý thông tin hàng hóa, người bán, người mua, tình trạng đơn hàng, các chương trình khuyến mãi…

Tạm kết

Từ những thông tin trên mà chúng tôi cung cấp đã giúp bạn hiểu rõ hơn về data warehouse là gì. Bạn có thể dễ dàng thấy rằng kho dữ liệu đóng vai trò then chốt trong việc tập hợp; xử lý dữ liệu thô trong doanh nghiệp.

Xây dựng kho dữ liệu là nền tảng vững chắc trong quá trình tích hợp hệ thống báo cáo quản trị thông minh cho doanh nghiệp.

Chúc bạn thành công với kho dữ liệu mà mình xây dựng nhé!

Bạn quan tâm đến xây dựng hệ thống MIS cũng như hệ thống quản trị toàn diện tại doanh nghiệp? Tìm hiểu ngay Bộ Cẩm Nang Quản Trị SMART CEO 4.0 tại link sau: https://camnangceo.com

>