ডেটা সায়েন্স এবং বড় ডেটা হ্যাডোপ এক কি? তাদের মধ্যে কোনও পার্থক্য আছে বা তারা উভয়ই একই অর্থ?


উত্তর 1:

না, অবশ্যই না।

এই সমস্যাটি তিন ভাগে আলোচনা করা যাক:

ডেটা সায়েন্স হল স্ট্যাটিস্টিক্স, কম্বিনেটরিটিক্স, ম্যাথমেটিক্স এবং কম্পিউটার সায়েন্স ইত্যাদি থেকে আলাদা পদ্ধতি ব্যবহার করে বিভিন্ন সমস্যা সমাধানের একটি বিশেষীকরণ)

বিগ ডেটা: বিস্তৃত দৃষ্টিতে বড় ডেটা হ'ল প্রচলিত পদ্ধতির বাইরে বিশাল ডেটা (এই শব্দটি আপেক্ষিক) হ্যান্ডেল করার ধারণা।

হ্যাডোপ: হ্যাডোপ একটি কাঠামো বা আমরা বলতে পারি এমন একটি পরিবেশ যা বিভিন্ন সরঞ্জাম (পিআইজি, এইচআইভি, স্কুপ, ফিউম ইত্যাদি) ব্যবহার করে বিশাল ডেটাসেট পরিচালনা ও বিশ্লেষণ করতে ব্যবহার করা যেতে পারে

তথ্যসূত্র:

হ্যাডোপ টিউটোরিয়াল

তথ্য বিজ্ঞান

বড় তথ্য


উত্তর 2:

আমি মনে করি আপনি "ডেটা বিজ্ঞান" এবং "বিগ ডেটা হ্যাডোপ" দুটি ভিন্ন জিনিস হিসাবে বিবেচনা করেছেন তবে সেগুলি আসলে তিনটি। ডেটা সায়েন্স, বিগ ডেটা এবং হ্যাডুপের আলাদা অর্থ রয়েছে।

ধরে নেওয়া যাক আপনি দশম শ্রেণির শিক্ষার্থী। আপনার সহপাঠীরা দ্বারা পরিচালিত প্রতিটি বিষয়ে আপনাকে গড়ে গড় নম্বর খুঁজে পাওয়ার একটি কাজ দেওয়া হয়েছে। আপনার ক্লাসে 50 জন শিক্ষার্থী প্রতিটি 5 টি বিষয়ে অধ্যয়ন করছে। গড় সন্ধান করা কোনও রকেট বিজ্ঞান নয়, তাই আপনি এটি সর্বোপরি একটি শীটটিতে করেন। এখন আপনার শিক্ষক আপনাকে প্রায় দেড় শতাধিক শিক্ষার্থীর এ, বি এবং সি বিভাগের সমস্ত বিভাগের জন্য একই গণনা করতে বলেছে। এক্সেল শীট আবার যথেষ্ট। এখন আপনি জানতে চান সারা দেশে দশম শ্রেণির শিক্ষার্থীদের দ্বারা প্রাপ্ত বিজ্ঞানের গড় নম্বরগুলি কী হবে, যা ২০১ 2016 সালে প্রায় ১৪,31,861 শিক্ষার্থী You আপনি সম্ভবত এতটা ডেটা কোনও এক্সেল শীটে সংরক্ষণ করতে পারবেন না তাই আপনি এটি সংরক্ষণ করতে পারবেন মাইএসকিউএল বা ওরাকল এর মতো একটি ডাটাবেসে। গড় খুঁজে পেতে আপনি একটি এসকিউএল কোয়েরি চালান। এখন আপনি বিজ্ঞানের 10 ম শ্রেণিতে প্রায় 2000 বছর ধরে গড়ে গড়ে কিভাবে 3000000 রেকর্ড রয়েছে তার গড় প্রবণতা জানতে আগ্রহী। আপনি যদি কেবল বিজ্ঞান নয়, সমস্ত 5 বিষয়ের গড় খুঁজে পান তবে আপনি 30000000 x 5 রেকর্ড পরিচালনা করবেন। ডেটা এখন বড়, একে "বিগ ডেটা "ও বলা হয়।

বিগ ডেটা - অত্যন্ত বড় ডেটা সেট যা নিদর্শন, প্রবণতা এবং সংযুক্তি প্রকাশের জন্য গণনাগতভাবে বিশ্লেষণ করা যেতে পারে, বিশেষত মানুষের আচরণ এবং মিথস্ক্রিয়া সম্পর্কিত।- উইকিপিডিয়া থেকে

আপনার সম্ভবত আপনার মাইএসকিউএল বা ওরাকল এ এত বেশি ডেটা সংরক্ষণ করা উচিত নয় এবং আপনার এসকিউএল কোয়েরিটি কয়েক মিলিয়ন রেকর্ডে চালানো উচিত। আমি কোনও এসকিউএল ডাটাবেসে এতগুলি ডেটা নিয়ে কাজ করি নি তাই এর কার্যকারিতা সম্পর্কে কোনও মন্তব্য করব না তবে আমি হডোপকে প্রচুর পরিমাণে ডেটা সেটগুলি পরিচালনা করতে ব্যবহার করেছি, আমরা যে স্টুডেন্ট ডাটাবেসের সাথে কথা বলছি তার চেয়ে অনেক বড়। হ্যাডোপ হ'ল একটি কাঠামো যা একাধিক সিস্টেমে ডেটা বিতরণ করে যাতে সমস্ত সিস্টেম সমান্তরালভাবে কম্পিউটিং করতে পারে, যার ফলে গণনার সামগ্রিক গতি বৃদ্ধি পায়, যাকে ডিস্ট্রিবিউটড কম্পিউটিংও বলা হয়। হাদুপের নিজস্ব ফাইল সিস্টেম রয়েছে যা বিগ ডেটার জন্য ডেটা স্টোরেজ সিস্টেম।

সাধারণের ক্ষেত্রে ডেটা সায়েন্স হ'ল বড় বা ছোট ডেটা দিয়ে কী করা যায় তা বোঝার একটি বিজ্ঞান। এখনও অবধি আমরা কেবলমাত্র স্কোরের সন্ধানের চেষ্টা করছিলাম কিন্তু একজন ডেটা বিজ্ঞানী বিজ্ঞানের বাইরে গিয়ে গড়ের সাহায্যে কী করা যায় তা খুঁজে বের করার উপায়গুলি অনুসন্ধান করবেন। একটি সংস্থার জন্য তিনি তাদের ব্যবসায়ের সিদ্ধান্ত নিতে এবং এমন নিদর্শনগুলি খুঁজে পেতে সহায়তা করবেন যা মনিবদের আরও ভাল সিদ্ধান্ত নিতে এবং লাভ বাড়ানোর জন্য সংস্থানগুলি বরাদ্দ করতে সহায়তা করবে। বেশিরভাগ ডেটা বিজ্ঞানী বিজ্ঞানীরা এমনকি হডোপ ব্যবহার করতে পারেন না যদি তারা বিগ ডেটা নিয়ে কাজ করে না, তারা সাধারণত আর ল্যাং বা পাইথন ব্যবহার করেন তাদের গণনার জন্য।

বিগ ডেটা একটি ধারণা H হ্যাডুপ একটি সরঞ্জাম D ডেটা সায়েন্স কম্পিউটার বিজ্ঞানের একটি ক্ষেত্র।


উত্তর 3:

আমি মনে করি আপনি "ডেটা বিজ্ঞান" এবং "বিগ ডেটা হ্যাডোপ" দুটি ভিন্ন জিনিস হিসাবে বিবেচনা করেছেন তবে সেগুলি আসলে তিনটি। ডেটা সায়েন্স, বিগ ডেটা এবং হ্যাডুপের আলাদা অর্থ রয়েছে।

ধরে নেওয়া যাক আপনি দশম শ্রেণির শিক্ষার্থী। আপনার সহপাঠীরা দ্বারা পরিচালিত প্রতিটি বিষয়ে আপনাকে গড়ে গড় নম্বর খুঁজে পাওয়ার একটি কাজ দেওয়া হয়েছে। আপনার ক্লাসে 50 জন শিক্ষার্থী প্রতিটি 5 টি বিষয়ে অধ্যয়ন করছে। গড় সন্ধান করা কোনও রকেট বিজ্ঞান নয়, তাই আপনি এটি সর্বোপরি একটি শীটটিতে করেন। এখন আপনার শিক্ষক আপনাকে প্রায় দেড় শতাধিক শিক্ষার্থীর এ, বি এবং সি বিভাগের সমস্ত বিভাগের জন্য একই গণনা করতে বলেছে। এক্সেল শীট আবার যথেষ্ট। এখন আপনি জানতে চান সারা দেশে দশম শ্রেণির শিক্ষার্থীদের দ্বারা প্রাপ্ত বিজ্ঞানের গড় নম্বরগুলি কী হবে, যা ২০১ 2016 সালে প্রায় ১৪,31,861 শিক্ষার্থী You আপনি সম্ভবত এতটা ডেটা কোনও এক্সেল শীটে সংরক্ষণ করতে পারবেন না তাই আপনি এটি সংরক্ষণ করতে পারবেন মাইএসকিউএল বা ওরাকল এর মতো একটি ডাটাবেসে। গড় খুঁজে পেতে আপনি একটি এসকিউএল কোয়েরি চালান। এখন আপনি বিজ্ঞানের 10 ম শ্রেণিতে প্রায় 2000 বছর ধরে গড়ে গড়ে কিভাবে 3000000 রেকর্ড রয়েছে তার গড় প্রবণতা জানতে আগ্রহী। আপনি যদি কেবল বিজ্ঞান নয়, সমস্ত 5 বিষয়ের গড় খুঁজে পান তবে আপনি 30000000 x 5 রেকর্ড পরিচালনা করবেন। ডেটা এখন বড়, একে "বিগ ডেটা "ও বলা হয়।

বিগ ডেটা - অত্যন্ত বড় ডেটা সেট যা নিদর্শন, প্রবণতা এবং সংযুক্তি প্রকাশের জন্য গণনাগতভাবে বিশ্লেষণ করা যেতে পারে, বিশেষত মানুষের আচরণ এবং মিথস্ক্রিয়া সম্পর্কিত।- উইকিপিডিয়া থেকে

আপনার সম্ভবত আপনার মাইএসকিউএল বা ওরাকল এ এত বেশি ডেটা সংরক্ষণ করা উচিত নয় এবং আপনার এসকিউএল কোয়েরিটি কয়েক মিলিয়ন রেকর্ডে চালানো উচিত। আমি কোনও এসকিউএল ডাটাবেসে এতগুলি ডেটা নিয়ে কাজ করি নি তাই এর কার্যকারিতা সম্পর্কে কোনও মন্তব্য করব না তবে আমি হডোপকে প্রচুর পরিমাণে ডেটা সেটগুলি পরিচালনা করতে ব্যবহার করেছি, আমরা যে স্টুডেন্ট ডাটাবেসের সাথে কথা বলছি তার চেয়ে অনেক বড়। হ্যাডোপ হ'ল একটি কাঠামো যা একাধিক সিস্টেমে ডেটা বিতরণ করে যাতে সমস্ত সিস্টেম সমান্তরালভাবে কম্পিউটিং করতে পারে, যার ফলে গণনার সামগ্রিক গতি বৃদ্ধি পায়, যাকে ডিস্ট্রিবিউটড কম্পিউটিংও বলা হয়। হাদুপের নিজস্ব ফাইল সিস্টেম রয়েছে যা বিগ ডেটার জন্য ডেটা স্টোরেজ সিস্টেম।

সাধারণের ক্ষেত্রে ডেটা সায়েন্স হ'ল বড় বা ছোট ডেটা দিয়ে কী করা যায় তা বোঝার একটি বিজ্ঞান। এখনও অবধি আমরা কেবলমাত্র স্কোরের সন্ধানের চেষ্টা করছিলাম কিন্তু একজন ডেটা বিজ্ঞানী বিজ্ঞানের বাইরে গিয়ে গড়ের সাহায্যে কী করা যায় তা খুঁজে বের করার উপায়গুলি অনুসন্ধান করবেন। একটি সংস্থার জন্য তিনি তাদের ব্যবসায়ের সিদ্ধান্ত নিতে এবং এমন নিদর্শনগুলি খুঁজে পেতে সহায়তা করবেন যা মনিবদের আরও ভাল সিদ্ধান্ত নিতে এবং লাভ বাড়ানোর জন্য সংস্থানগুলি বরাদ্দ করতে সহায়তা করবে। বেশিরভাগ ডেটা বিজ্ঞানী বিজ্ঞানীরা এমনকি হডোপ ব্যবহার করতে পারেন না যদি তারা বিগ ডেটা নিয়ে কাজ করে না, তারা সাধারণত আর ল্যাং বা পাইথন ব্যবহার করেন তাদের গণনার জন্য।

বিগ ডেটা একটি ধারণা H হ্যাডুপ একটি সরঞ্জাম D ডেটা সায়েন্স কম্পিউটার বিজ্ঞানের একটি ক্ষেত্র।