RDD trong Spark là gì và tại sao chúng ta cần nó?

Create by : https://globalizethis.org

Nói chung, Apache Spark đã vượt qua Hadoop ( MapReduce ), vì nhiều quyền lợi mà nó mang lại về mặt thực thi nhanh hơn trong những thuật toán giải quyết và xử lý lặp như Học máy .Trong bài đăng này, chúng tôi sẽ cố gắng nỗ lực hiểu điều gì làm cho tia RDD trở nên hữu dụng trong nghiên cứu và phân tích hàng loạt .

Tại sao lại là RDD?

Khi nói đến điện toán phân tán lặp, tức là giải quyết và xử lý tài liệu qua nhiều việc làm trong những thống kê giám sát như Hồi quy logistic, phân cụm K-nghĩa, thuật toán xếp hạng Trang, khá thông dụng để sử dụng lại hoặc san sẻ tài liệu giữa nhiều việc làm hoặc bạn hoàn toàn có thể muốn thực thi nhiều việc làm truy vấn đặc biệt quan trọng trên một tập tài liệu được san sẻ .

Có một vấn đề tiềm ẩn với việc tái sử dụng dữ liệu hoặc chia sẻ dữ liệu trong các hệ thống máy tính phân tán hiện có (như MapReduce) và đó là, bạn cần lưu trữ dữ liệu trong một số cửa hàng phân tán ổn định trung gian như HDFS hoặc Amazon S3. Điều này làm cho việc tính toán tổng thể các công việc chậm hơn vì nó liên quan đến nhiều hoạt động IO, sao chép và tuần tự hóa trong quy trình.

Xem thêm :  Game bán hàng trong siêu thị: Toy Store

Bạn đang đọc: RDD trong Spark là gì và tại sao chúng ta cần nó?

RDD trong Spark là gì và tại sao chúng ta cần nó?

Xử lý lặp trong MapReduceRDD, cố gắng nỗ lực xử lý những yếu tố này bằng cách cho phép thống kê giám sát trong bộ nhớ phân tán chịu lỗi .

RDD trong Spark là gì và tại sao chúng ta cần nó?

Xử lý lặp trong Spark

Bây giờ, hãy hiểu chính xác RDD là gì và cách nó đạt được khả năng chịu lỗi –

Xem thêm: Vai trò của gia đình trong xã hội hiện nay

RDD – Bộ dữ liệu phân tán linh hoạt

RDD là bộ sưu tập những bản ghi không bao giờ thay đổi và được phân vùng, chỉ hoàn toàn có thể được tạo bởi những hoạt động giải trí cụ thể thô như map, bộ lọc, nhóm, v.v. Bằng những thao tác chi tiết cụ thể thô, điều đó có nghĩa là những hoạt động giải trí được vận dụng trên tổng thể những thành phần trong bộ tài liệu. RDD chỉ hoàn toàn có thể được tạo bằng cách đọc tài liệu từ bộ tàng trữ không thay đổi như HDFS hoặc bằng cách quy đổi trên RDD hiện có .

Bây giờ, làm thế nào là giúp đỡ cho dung sai lỗi?

Vì RDD được tạo qua một tập hợp những phép đổi khác, nó ghi nhật ký những phép đổi khác đó, chứ không phải là tài liệu thực tiễn. Sơ đồ đổi khác để tạo ra một RDD được gọi là Đồ thị Lineage .Ví dụ –

firstRDD=spark.textFile("hdfs://...")
secondRDD=firstRDD.filter(someFunction);
thirdRDD = secondRDD.map(someFunction);

Xem thêm: TÌM HIỂU VỀ SỰ KHÁC NHAU GIỮA URI, URL VÀ URN | CO-WELL Asia

Xem thêm :  Quốc huy Việt Nam là gì? Ý nghĩa của quốc huy?

Biểu đồ truyền thừa Spark RDD

RDD trong Spark là gì và tại sao chúng ta cần nó?

Trong trường hợp chúng tôi mất 1 số ít phân vùng của RDD, chúng tôi hoàn toàn có thể phát lại quy đổi trên phân vùng đó theo dòng để đạt được cùng một đo lường và thống kê, thay vì sao chép tài liệu trên nhiều nút. Đặc điểm này là quyền lợi lớn nhất của RDD, vì nó tiết kiệm ngân sách và chi phí rất nhiều nỗ lực trong quản trị và nhân rộng tài liệu và do đó đạt được những đo lường và thống kê nhanh hơn .

Source: https://globalizethis.org/
Category: Hỏi Đáp

Khi copy nhớ ghi nguồn : https://globalizethis.org nhé . Chúc bạn may mắn

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

This site uses cookies to offer you a better browsing experience. By browsing this website, you agree to our use of cookies.