পরিসংখ্যানগত মডেল: পদ্ধতি, নির্মাণ এবং বিশ্লেষণের সারাংশ

সুচিপত্র:

পরিসংখ্যানগত মডেল: পদ্ধতি, নির্মাণ এবং বিশ্লেষণের সারাংশ
পরিসংখ্যানগত মডেল: পদ্ধতি, নির্মাণ এবং বিশ্লেষণের সারাংশ
Anonim

একটি পরিসংখ্যান মডেল হল একটি গাণিতিক অভিক্ষেপ যা কিছু নমুনা ডেটা তৈরির বিষয়ে বিভিন্ন অনুমানের সেটকে মূর্ত করে। শব্দটি প্রায়শই একটি আদর্শ আকারে উপস্থাপিত হয়৷

পরিসংখ্যান মডেলে প্রকাশিত অনুমানগুলি সম্ভাব্যতা বিতরণের একটি সেট দেখায়। যার অনেকগুলি সঠিকভাবে আনুমানিক বিতরণের উদ্দেশ্যে করা হয়েছে যেখান থেকে তথ্যের একটি নির্দিষ্ট সেট টানা হচ্ছে। পরিসংখ্যানগত মডেলের অন্তর্নিহিত সম্ভাব্যতা বন্টনগুলি অন্যান্য গাণিতিক পরিবর্তনগুলি থেকে অভিক্ষেপকে আলাদা করে৷

সাধারণ অভিক্ষেপ

পরিসংখ্যান প্রক্রিয়া মডেল
পরিসংখ্যান প্রক্রিয়া মডেল

গাণিতিক মডেল হল নির্দিষ্ট ধারণা এবং ভাষা ব্যবহার করে সিস্টেমের একটি বর্ণনা। তারা প্রাকৃতিক বিজ্ঞান (যেমন পদার্থবিদ্যা, জীববিজ্ঞান, পৃথিবী বিজ্ঞান, রসায়ন) এবং প্রকৌশল শাখায় (যেমন কম্পিউটার বিজ্ঞান, বৈদ্যুতিক প্রকৌশল), পাশাপাশি সামাজিক বিজ্ঞান (যেমন অর্থনীতি, মনোবিজ্ঞান, সমাজবিজ্ঞান, রাষ্ট্রবিজ্ঞান) প্রয়োগ করে।

মডেলটি সিস্টেম ব্যাখ্যা করতে সাহায্য করতে পারে এবংবিভিন্ন উপাদানের প্রভাব অধ্যয়ন করুন এবং আচরণের ভবিষ্যদ্বাণী করুন৷

গাণিতিক মডেলগুলি গতিশীল সিস্টেম, পরিসংখ্যানগত অনুমান, ডিফারেনশিয়াল সমীকরণ, বা গেম-তত্ত্বীয় পরামিতি সহ অনেকগুলি রূপ নিতে পারে। এই এবং অন্যান্য ধরনের ওভারল্যাপ হতে পারে, এবং এই মডেল অনেক বিমূর্ত কাঠামো অন্তর্ভুক্ত. সাধারণভাবে, গাণিতিক অনুমানগুলি যৌক্তিক উপাদানগুলিও অন্তর্ভুক্ত করতে পারে। অনেক ক্ষেত্রে, একটি বৈজ্ঞানিক ক্ষেত্রের গুণমান নির্ভর করে তাত্ত্বিকভাবে উন্নত গাণিতিক মডেলগুলি বারবার পরীক্ষার ফলাফলের সাথে কতটা একমত। তাত্ত্বিক প্রক্রিয়া এবং পরীক্ষামূলক পরিমাপের মধ্যে চুক্তির অভাব প্রায়শই গুরুত্বপূর্ণ অগ্রগতির দিকে পরিচালিত করে কারণ আরও ভালো তত্ত্ব তৈরি হয়৷

ভৌত বিজ্ঞানে, ঐতিহ্যগত গাণিতিক মডেলে নিম্নলিখিত উপাদানগুলির একটি বড় সংখ্যা রয়েছে:

  • নিয়ন্ত্রণ সমীকরণ।
  • অতিরিক্ত সাবমডেল।
  • সমীকরণ সংজ্ঞায়িত করুন।
  • গঠনিক সমীকরণ।
  • অনুমান এবং সীমাবদ্ধতা।
  • প্রাথমিক এবং সীমানা শর্ত।
  • শাস্ত্রীয় সীমাবদ্ধতা এবং গতির সমীকরণ।

সূত্র

একটি পরিসংখ্যান মডেল, একটি নিয়ম হিসাবে, গাণিতিক সমীকরণ দ্বারা সেট করা হয় যা এক বা একাধিক র্যান্ডম ভেরিয়েবল এবং সম্ভবত অন্যান্য প্রাকৃতিকভাবে ঘটতে থাকা ভেরিয়েবলকে একত্রিত করে। একইভাবে, অভিক্ষেপকে "একটি ধারণার আনুষ্ঠানিক ধারণা" হিসাবে বিবেচনা করা হয়৷

সমস্ত পরিসংখ্যানগত হাইপোথিসিস পরীক্ষা এবং পরিসংখ্যানগত মূল্যায়ন গাণিতিক মডেল থেকে অর্জিত হয়।

পরিচয়

পরিসংখ্যানগত গাণিতিক মডেল
পরিসংখ্যানগত গাণিতিক মডেল

অনুষ্ঠানিকভাবে, একটি পরিসংখ্যান মডেলকে একটি নির্দিষ্ট সম্পত্তির সাথে একটি অনুমান (বা অনুমানের সেট) হিসাবে দেখা যেতে পারে: এটি একজনকে যেকোনো ঘটনার সম্ভাব্যতা গণনা করতে দেয়। একটি উদাহরণ হিসাবে, সাধারণ ছয়-পার্শ্বযুক্ত পাশা একটি জোড়া বিবেচনা করুন. হাড় সম্পর্কে দুটি ভিন্ন পরিসংখ্যানগত অনুমান অন্বেষণ করা প্রয়োজন৷

প্রথম অনুমান হল:

প্রতিটি পাশার জন্য, একটি নম্বর পাওয়ার সম্ভাবনা (1, 2, 3, 4, 5 এবং 6) হল: 1/6।

এই অনুমান থেকে, আমরা উভয় পাশার সম্ভাব্যতা গণনা করতে পারি: 1:1/6×1/6=1/36.

আরো সাধারণভাবে, আপনি যেকোনো ঘটনার সম্ভাব্যতা গণনা করতে পারেন। যাইহোক, এটা বোঝা উচিত যে অন্য কোন অ-তুচ্ছ ঘটনার সম্ভাব্যতা গণনা করা অসম্ভব।

শুধুমাত্র প্রথম মতামত একটি পরিসংখ্যানগত গাণিতিক মডেল সংগ্রহ করে: এই কারণে যে শুধুমাত্র একটি অনুমান দিয়ে প্রতিটি কর্মের সম্ভাব্যতা নির্ধারণ করা সম্ভব।

প্রাথমিক অনুমতি সহ উপরের নমুনায়, একটি ইভেন্টের সম্ভাবনা নির্ধারণ করা সহজ। কিছু অন্যান্য উদাহরণ সহ, গণনা কঠিন বা এমনকি অবাস্তব হতে পারে (উদাহরণস্বরূপ, এটির জন্য অনেক বছরের গণনার প্রয়োজন হতে পারে)। পরিসংখ্যানগত বিশ্লেষণ মডেল ডিজাইন করা একজন ব্যক্তির জন্য, এই ধরনের জটিলতা অগ্রহণযোগ্য বলে মনে করা হয়: গণনার বাস্তবায়ন কার্যত অসম্ভব এবং তাত্ত্বিকভাবে অসম্ভব হওয়া উচিত নয়।

আনুষ্ঠানিক সংজ্ঞা

গাণিতিক পরিভাষায়, একটি সিস্টেমের পরিসংখ্যানগত মডেলকে সাধারণত একটি জোড়া (S, P) হিসাবে বিবেচনা করা হয়, যেখানে S হলসম্ভাব্য পর্যবেক্ষণের সেট, যেমন নমুনা স্থান, এবং P হল S.

এ সম্ভাব্যতা বিতরণের সেট

এই সংজ্ঞাটির অন্তর্দৃষ্টি নিম্নরূপ। এটা অনুমান করা হয় যে একটি "সত্য" সম্ভাব্যতা বন্টন প্রক্রিয়া দ্বারা সৃষ্ট হয় যা নির্দিষ্ট ডেটা তৈরি করে৷

সেট

তিনিই মডেলের পরামিতি নির্ধারণ করেন। প্যারামিটারাইজেশনের জন্য সাধারণত বিভিন্ন ডিস্ট্রিবিউশনের জন্য বিভিন্ন মানের প্রয়োজন হয়, যেমন

মডেলের পরিণতি
মডেলের পরিণতি

ধরে রাখতে হবে (অন্য কথায়, এটি অবশ্যই ইনজেকশন হতে হবে)। একটি প্যারামিটারাইজেশন যা প্রয়োজনীয়তা পূরণ করে তাকে সনাক্তযোগ্য বলা হয়৷

উদাহরণ

পরিসংখ্যান গ্রাফ
পরিসংখ্যান গ্রাফ

অনুমান করুন যে কিছু সংখ্যক ছাত্র আছে যারা বিভিন্ন বয়সের। সন্তানের উচ্চতা স্টোকাস্টিকভাবে জন্মের বছরের সাথে সম্পর্কিত হবে: উদাহরণস্বরূপ, যখন একজন স্কুলছাত্র 7 বছর বয়সী হয়, তখন এটি বৃদ্ধির সম্ভাবনাকে প্রভাবিত করে, শুধুমাত্র যাতে ব্যক্তিটি 3 সেন্টিমিটারের বেশি লম্বা হবে।

আপনি এই পদ্ধতিটিকে একটি সরল-রেখার রিগ্রেশন মডেলে ফর্মালাইজ করতে পারেন, উদাহরণস্বরূপ, নিম্নরূপ: উচ্চতা i=b 0 + b 1agei + εi, যেখানে b 0 হল ছেদ, b 1 হল পরামিতি কোন বয়স দ্বারা উচ্চতা পর্যবেক্ষণ প্রাপ্ত করার সময় গুণিত হয়. এটি একটি ত্রুটি শব্দ. অর্থাৎ, এটি অনুমান করে যে উচ্চতা একটি নির্দিষ্ট ত্রুটির সাথে বয়স দ্বারা পূর্বাভাস করা হয়েছে৷

একটি বৈধ ফর্ম অবশ্যই সমস্ত তথ্য পয়েন্টের সাথে মেলে। এইভাবে, রেক্টিলাইনার দিক (স্তর i=b 0 + b 1agei) একটি ডেটা মডেলের জন্য একটি সমীকরণ হতে সক্ষম নয় - যদি এটি সম্পূর্ণভাবে সমস্ত পয়েন্টের উত্তর না দেয়। অর্থাৎব্যতিক্রম ছাড়া, সমস্ত তথ্য লাইনে ত্রুটিহীনভাবে মিথ্যা। ত্রুটি εi এর মার্জিনটি অবশ্যই সমীকরণে প্রবেশ করাতে হবে যাতে ফর্মটি সম্পূর্ণরূপে সমস্ত তথ্যের সাথে মেলে।

একটি পরিসংখ্যানগত অনুমান করতে, আমাদের প্রথমে ε i এর জন্য কিছু সম্ভাব্যতা বন্টন অনুমান করতে হবে। উদাহরণ স্বরূপ, কেউ ধরে নিতে পারে যে ε i-এর ডিস্ট্রিবিউশনে শূন্য গড় সহ একটি গাউসিয়ান আকৃতি রয়েছে। এই ক্ষেত্রে, মডেলটিতে 3টি প্যারামিটার থাকবে: b 0, b 1 এবং গাউসিয়ান ডিস্ট্রিবিউশনের প্রকরণ।

আপনি আনুষ্ঠানিকভাবে মডেলটিকে (S, P) হিসাবে নির্দিষ্ট করতে পারেন।

এই উদাহরণে, মডেলটিকে S নির্দিষ্ট করে সংজ্ঞায়িত করা হয়েছে এবং তাই P সম্পর্কে কিছু অনুমান করা যেতে পারে। দুটি বিকল্প রয়েছে:

এই বৃদ্ধি বয়সের একটি রৈখিক ফাংশন দ্বারা আনুমানিক করা যেতে পারে;

যে আনুমানিক ত্রুটিগুলি গাউসিয়ানের ভিতরে হিসাবে বিতরণ করা হয়।

সাধারণ মন্তব্য

মডেলের পরিসংখ্যানগত পরামিতি হল গাণিতিক অভিক্ষেপের একটি বিশেষ শ্রেণি। কী এক প্রজাতিকে অন্য প্রজাতি থেকে আলাদা করে তোলে? সুতরাং এটা হল যে পরিসংখ্যানের মডেলটি অ-নির্ধারক। এইভাবে, এতে, গাণিতিক সমীকরণের বিপরীতে, কিছু ভেরিয়েবলের নির্দিষ্ট মান থাকে না, তবে এর পরিবর্তে সম্ভাবনার বন্টন থাকে। অর্থাৎ, পৃথক ভেরিয়েবলগুলিকে স্টোকাস্টিক হিসাবে বিবেচনা করা হয়। উপরের উদাহরণে, ε একটি স্টোকাস্টিক পরিবর্তনশীল। এটি ছাড়া, অভিক্ষেপ নির্ণায়ক হবে৷

একটি পরিসংখ্যানগত মডেল তৈরি করা প্রায়শই ব্যবহৃত হয়, এমনকি যদি উপাদান প্রক্রিয়াটিকে নির্ধারক হিসাবে বিবেচনা করা হয়। উদাহরণ স্বরূপ, কয়েন নিক্ষেপ করা হল, নীতিগতভাবে, একটি পূর্বনির্ধারিত ক্রিয়া।যাইহোক, এটি এখনও বেশিরভাগ ক্ষেত্রে স্টোকাস্টিক হিসাবে মডেল করা হয় (একটি বার্নোলি প্রক্রিয়ার মাধ্যমে)।

কোনিশি এবং কিতাগাওয়ার মতে, একটি পরিসংখ্যানগত মডেলের জন্য তিনটি লক্ষ্য রয়েছে:

  • ভবিষ্যদ্বাণী।
  • তথ্য খনির।
  • স্টকাস্টিক কাঠামোর বর্ণনা।

প্রক্ষেপণের আকার

ধরুন একটি পরিসংখ্যানগত ভবিষ্যদ্বাণী মডেল আছে, O এর একটি সীমাবদ্ধ মাত্রা থাকলে মডেলটিকে প্যারামেট্রিক বলা হয়। সমাধানে, আপনাকে অবশ্যই লিখতে হবে যে

মডেল পার্থক্য
মডেল পার্থক্য

যেখানে k হল একটি ধনাত্মক পূর্ণসংখ্যা (R মানে কোনো বাস্তব সংখ্যা)। এখানে k কে মডেলের মাত্রা বলা হয়।

উদাহরণস্বরূপ, আমরা অনুমান করতে পারি যে সমস্ত ডেটা একটি ভিন্ন ভিন্ন গাউসিয়ান বিতরণ থেকে আসে:

পরিসংখ্যান সূত্র
পরিসংখ্যান সূত্র

এই উদাহরণে, k-এর মাত্রা হল ২.

এবং অন্য একটি উদাহরণ হিসাবে, ডেটাতে (x, y) পয়েন্ট রয়েছে বলে ধরে নেওয়া যেতে পারে, যা গাউসিয়ান অবশিষ্টাংশের সাথে (শূন্য গড় সহ) একটি সরল রেখায় বিতরণ করা হয়েছে বলে ধরে নেওয়া হয়। তারপর পরিসংখ্যানগত অর্থনৈতিক মডেলের মাত্রা 3 এর সমান: রেখার ছেদ, এর ঢাল এবং অবশিষ্টাংশের বন্টনের প্রকরণ। এটি লক্ষ করা উচিত যে জ্যামিতিতে একটি সরল রেখার মাত্রা 1।

যদিও উপরের মানটি প্রযুক্তিগতভাবে একমাত্র প্যারামিটার যার মাত্রা k আছে, এটি মাঝে মাঝে k স্বতন্ত্র মান ধারণ করা হয়। উদাহরণস্বরূপ, এক-মাত্রিক গাউসিয়ান ডিস্ট্রিবিউশনের সাথে, O হল একমাত্র প্যারামিটার যার আকার 2, কিন্তু কখনও কখনও দুটি ধারণ করে বলে মনে করা হয়স্বতন্ত্র প্যারামিটার - গড় মান এবং আদর্শ বিচ্যুতি।

একটি পরিসংখ্যানগত প্রক্রিয়া মডেল অ-প্যারামেট্রিক হয় যদি O মানের সেট অসীম-মাত্রিক হয়। এটি আধা-প্যারামেট্রিকও হয় যদি এটির উভয় সসীম-মাত্রিক এবং অসীম-মাত্রিক পরামিতি থাকে। আনুষ্ঠানিকভাবে, k যদি O-এর একটি মাত্রা হয় এবং n হয় নমুনার সংখ্যা, সেমি-প্যারামেট্রিক এবং নন-প্যারামেট্রিক মডেলের

মডেল সূত্র
মডেল সূত্র

তারপর মডেলটি সেমি-প্যারামেট্রিক। অন্যথায়, অভিক্ষেপটি অ-প্যারামেট্রিক।

প্যারামেট্রিক মডেল হল সবচেয়ে বেশি ব্যবহৃত পরিসংখ্যান। সেমি-প্যারামেট্রিক এবং নন-প্যারামেট্রিক প্রজেকশন সম্পর্কে, স্যার ডেভিড কক্স বলেছেন:

"সাধারণত, তারা টেক্সচার এবং ডিস্ট্রিবিউশন আকৃতি সম্পর্কে সবচেয়ে কম অনুমানকে জড়িত করে, তবে তারা স্বয়ংসম্পূর্ণতা সম্পর্কে শক্তিশালী তত্ত্বগুলি অন্তর্ভুক্ত করে।"

নেস্টেড মডেল

মাল্টিলেভেল প্রজেকশন দিয়ে তাদের বিভ্রান্ত করবেন না।

দুটি পরিসংখ্যান মডেল নেস্ট করা হয় যদি প্রথমটির পরামিতিগুলির উপর সীমাবদ্ধতা আরোপ করে প্রথমটিকে দ্বিতীয়টিতে রূপান্তর করা যায়। উদাহরণস্বরূপ, সমস্ত গাউসিয়ান ডিস্ট্রিবিউশনের সেটে জিরো-মিন ডিস্ট্রিবিউশনের একটি নেস্টেড সেট রয়েছে:

অর্থাৎ, শূন্য গড় সহ বিতরণ পেতে আপনাকে সমস্ত গাউসিয়ান ডিস্ট্রিবিউশনের সেটে গড় সীমাবদ্ধ করতে হবে। দ্বিতীয় উদাহরণ হিসেবে, দ্বিঘাত মডেল y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) একটি এমবেডেড লিনিয়ার মডেল y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - যেমন প্যারামিটার b2 0.

এর সমান

এই দুটি উদাহরণেই, প্রথম মডেলটির দ্বিতীয় মডেলের চেয়ে উচ্চমাত্রিকতা রয়েছে। এটা প্রায়ই হয়, কিন্তু সবসময় ক্ষেত্রে না. আরেকটি উদাহরণ হল ধনাত্মক গড় সহ গাউসিয়ান ডিস্ট্রিবিউশনের সেট, যার মাত্রা 2।

মডেলের তুলনা

পরিসংখ্যান মডেল
পরিসংখ্যান মডেল

এটা অনুমান করা হয় যে একটি "সত্য" সম্ভাব্যতা বণ্টনের অন্তর্নিহিত পর্যবেক্ষিত ডেটা যে প্রক্রিয়াটি তৈরি করেছে তা দ্বারা প্ররোচিত হয়েছে৷

এবং অনুসন্ধানমূলক বিশ্লেষণ বা নিশ্চিতকরণ ব্যবহার করে মডেলগুলি একে অপরের সাথে তুলনা করা যেতে পারে। একটি অনুসন্ধানমূলক বিশ্লেষণে, বিভিন্ন মডেল প্রণয়ন করা হয় এবং তাদের প্রত্যেকটি ডেটাকে কতটা ভালভাবে বর্ণনা করে তা নিয়ে একটি মূল্যায়ন করা হয়। একটি নিশ্চিতকরণ বিশ্লেষণে, পূর্বে প্রণীত অনুমানটিকে মূলটির সাথে তুলনা করা হয়। এর জন্য সাধারণ মানদণ্ডের মধ্যে রয়েছে P 2, বায়েসিয়ান ফ্যাক্টর এবং আপেক্ষিক সম্ভাবনা।

কোনিশি এবং কিতাগাওয়ার চিন্তা

"একটি পরিসংখ্যানগত গাণিতিক মডেলের বেশিরভাগ সমস্যাকে ভবিষ্যদ্বাণীমূলক প্রশ্ন হিসাবে বিবেচনা করা যেতে পারে। এগুলি সাধারণত বিভিন্ন কারণের তুলনা হিসাবে তৈরি করা হয়৷"

আরও, স্যার ডেভিড কক্স বলেছেন: "বিষয়টি থেকে অনুবাদ হিসাবে, পরিসংখ্যান মডেলের সমস্যাটি প্রায়শই বিশ্লেষণের সবচেয়ে গুরুত্বপূর্ণ অংশ।"

প্রস্তাবিত: