- Tổng đài 24/7: 1800 646 881
- Đăng nhập
- 3
Công nghệ Hadoop là một công nghệ cốt lõi cho việc lưu trữ và truy cập Big Data. Nó cũng cung cấp hệ thống phân tán tệp tin HDFS nhằm tạo ra một không gian lưu trữ dữ liệu lớn với chi phí rẻ.
Vậy Hadoop Distributed File System (HDFS) là gì? HDFS có các đặc điểm và lợi ích khi sử dụng khi sử dụng ra sao?
Tất cả sẽ được chúng tôi làm rõ trong bài viết dưới đây.
Hadoop Distributed File System (HDFS) là hệ thống lưu trữ dữ liệu được Hadoop sử dụng. Với việc ứng dụng kiến trúc NameNode và DataNode để triển khai hệ thống tệp phân tán. Nó đã cung cấp khả năng truy cập với hiệu suất cao đến các dữ liệu trên các cụm của Hadoop.
Như đã biết, Hadoop là một khung xử lý phân tán mã nguồn mở. Nó hỗ trợ phát triển các ứng dụng phân tán để quản lý và lưu trữ tệp dữ liệu lớn. Và HDFS là một phần quan trọng của công nghệ hệ sinh thái Hadoop này. Đây là nơi cung cấp phương tiện đáng tin cậy để quản lý và hỗ trợ phân tích dữ liệu của Big Data.
Khi dữ liệu ngày càng nhiều, hệ thống bị quá tải đòi hỏi cần có công cụ giúp chia nhỏ và lưu dữ chúng trên nhiều máy tính. Chính vì vậy, HDFS ra đời và đảm nhận nhiệm vụ trên. Một tệp tin được di chuyển trên HDFS sẽ được chia nhỏ thành các phần riêng biệt. Các mảnh này sẽ được lưu trữ và phân tán trên các node khác nhau. Sau đó dữ liệu được ghi trên máy chủ, rồi sao chép và sử dụng lại nhiều lần.
Một tập tin có định dạng HDFS sẽ chia nhiều khối riêng biệt và những cụm này được lưu trong DataNodes. Các khối cũng được nhân rộng trên các nút cho phép xử lý và khắc phục được sự cố một cách nhanh chóng. NameNode định nghĩa ánh xạ, vị trí các khối đến DataNodes. Bên cạnh đó, nó cũng quản lý quyền truy cập vào các tệp cho phép đọc, ghi, xóa, sao chép và tạo mới dữ liệu.
Các NameNode theo dõi và luôn biết được các trạng thái của DataNodes. Khi nhận thấy các chúng hoạt động không bình thường, nó sẽ chuyển nhiệm vụ của DataNodes này cho các node khác trong cùng một khối dữ liệu.
Hadoop Distributed File System (HDFS) được thiết kế với khả năng chịu lỗi và tính sẵn sàng cao.
HDFS sử dụng kiến trúc master/slave. Trong đó, master gồm một NameNode để quản lý hệ thống và kiểm soát quyền truy cập của máy khách vào tệp. Đây là thành phần trung tâm của hệ thống tập tin phân tán Hadoop. Và gồm có một hay nhiều slave DataNodes được gán vào các node để lưu trữ dữ liệu thực tại.
NameNode trong HDFS gồm các File System Namespace và cho phép người dùng lưu trữ trong tệp. Nó thực hiện các hoạt động của File System Namespace bao gồm: mở, đóng, đổi tên tệp và thư mục. Ngoài ra, nó cũng chi phối việc ánh xạ các khối tới DataNodes.
Còn các DataNodes phục vụ các yêu cầu đọc và ghi từ các máy khách của hệ thống tệp. Bên cạnh đó, dưới sự hướng dẫn của NameNode chúng thực hiện việc tạo, xóa và sao chép các khối.
Một ứng dụng hoặc người dùng có thể tạo các thư mục và sau đó lưu trữ các tệp con bên trong các thư mục này. Các File System Namespace cũng giống như các hệ thống tệp khác cho phép người dùng có thể tạo, xóa, đổi tên hoặc di chuyển tệp từ thư mục này sang thư mục khác. Bất kỳ các thay đổi nào của nó cũng được Name Node ghi lại.
Số lượng các bản sao của một tệp được gọi là hệ số nhân bản của tệp đó.
Các tính năng nổi bật của Hadoop Distributed File System (HDFS) là:
Ưu điểm khi sử dụng Lợi ích khi sử dụng Hadoop Distributed File System (HDFS) là:
Hệ thống Tệp Phân tán Hadoop ( HDFS) xuất hiện trên Yahoo đảm nhận yêu cầu về vị trí đặt quảng cáo trực tuyến và công cụ tìm kiếm. Yahoo đã tung ra nhiều ứng dụng khác nhau được ngày người dùng truy cập và lưu trữ dữ liệu.
Một số các nền tảng cũng sử dụng HDFS để phân tích hệ thống dữ liệu lớn có thể kể đến như EBay, Facebook, LinkedIn và Twitter.
Ngoài việc đáp ứng các yêu cầu về phân phát quảng cáo và công cụ tìm kiếm, HDFS còn được sử dụng để chuyển đổi hình ảnh, xử lý và phân tích nhật ký cũng như phân tích tỷ lể. Nó được xem là cốt lõi của hệ thống dữ liệu mã nguồn mở.
Các công ty cũng sử dụng HDFS để quản lý nhóm dữ liệu lớn ( Big Data):
Sao chép dữ liệu là một phần quan trọng của định dạng HDFS vì nó đảm bảo dữ liệu vẫn có sẵn nếu có lỗi phần cứng hoặc nút. Dữ liệu khi di chuyển qua HDFS sẽ được chia thành nhiều mảnh nhỏ và được nhân. Do đó, khi một nút gặp sự cố, người dùng có thể truy cập dữ liệu trên nút đó từ các máy khác. HDFS duy trì quá trình sao chép đều đặn.
Như vậy, bài viết đã mang tới những thông tin cơ bản về Hadoop Distributed File System (HDFS). Hy vọng với những thông tin trên sẽ giúp bạn có cái nhìn tổng quan hơn về HDFS cũng như công nghệ Hadoop trong việc xử lý lượng dữ liệu lớn (Big Data). Chúc các bạn có những trải nghiệm thú vị khi sử dụng hệ thống này.
Nếu còn gặp bất cứ vướng mắc gì về HDFS, hãy để lại ở bên bình luận bên dưới, BKHOST sẽ trả lời bạn trong thời gian sớm nhất.
P/s: Bạn cũng có thể truy cập vào Blog của BKHOST để đọc thêm các bài viết chia sẻ kiến thức về lập trình, quản trị mạng, website, domain, hosting, vps, server, email,… Chúc bạn thành công.
Thuê Máy Chủ Vật Lý tại BKHOST
Giảm giá cực sâu, chất lượng hàng đầu. Đăng ký ngay hôm nay: