apache spark - আরডিবিএমএস থেকে জেডিবিসির মাধ্যমে পড়ার সময় স্পার্কে বিভাজন



apache-spark jdbc (1)

আপনি যদি { partitionColumn , lowerBound , upperBound , numPartitions partitionColumn } বা { predicates নির্দিষ্ট না করেন তবে স্পার্ক একটি একক এক্সিকিউটর ব্যবহার করবে এবং একটি একক খালি পার্টিশন তৈরি করবে। সমস্ত ডেটা একক লেনদেন ব্যবহার করে প্রক্রিয়া করা হবে এবং পাঠগুলি বিতরণ বা সমান্তরাল হবে না।

আরো দেখুন:

  • জেডিবিসি উত্স থেকে ডেটা স্থানান্তর করার সময় পার্টিশনটি কীভাবে অনুকূল করা যায়?
  • ডেটাফ্রেম এবং জেডিবিসি সংযোগ ব্যবহার করে ধীর স্পার্ক কাজের জন্য কর্মক্ষমতা কীভাবে উন্নত করা যায়?

আমি ক্লাস্টার মোডে স্পার্ক চালাচ্ছি এবং জেডিবিসির মাধ্যমে আরডিবিএমএস থেকে ডেটা পড়ছি।

স্পার্ক docs , এই পার্টিশনিং পরামিতিগুলি একাধিক কর্মীদের সমান্তরালে পড়ার সময় কীভাবে টেবিলটি বিভক্ত করতে হবে তা বর্ণনা করে:

  • partitionColumn
  • lowerBound
  • upperBound
  • numPartitions

এগুলি alচ্ছিক পরামিতি।

আমি যদি এগুলি নির্দিষ্ট না করি তবে কী হবে:

  • মাত্র ১ জন কর্মী পুরো ডেটা পড়েন?
  • এটি এখনও সমান্তরালভাবে পড়তে থাকলে এটি কীভাবে ডেটা বিভাজন করে?




partitioning