তথ্যগত এনট্রপির ধারণাটি একটি মানের জন্য সম্ভাব্য ভর ফাংশনের নেতিবাচক লগারিদমকে বোঝায়। এইভাবে, যখন ডেটা উৎসের একটি কম সম্ভাবনার মান থাকে (অর্থাৎ, যখন একটি কম সম্ভাবনা সহ একটি ঘটনা ঘটে), তখন ইভেন্টটি বেশি "তথ্য" ("আশ্চর্য") বহন করে যখন উত্স ডেটার একটি উচ্চ সম্ভাবনার মান থাকে.
এইভাবে সংজ্ঞায়িত প্রতিটি ইভেন্ট দ্বারা পরিবাহিত তথ্যের পরিমাণ একটি এলোমেলো পরিবর্তনশীল হয়ে ওঠে যার প্রত্যাশিত মান হল তথ্য এনট্রপি। সাধারণত, এনট্রপি বলতে ব্যাধি বা অনিশ্চয়তা বোঝায় এবং তথ্য তত্ত্বে ব্যবহৃত এর সংজ্ঞাটি পরিসংখ্যানগত তাপগতিবিদ্যায় ব্যবহৃত সংজ্ঞার সাথে সরাসরি সাদৃশ্যপূর্ণ। IE এর ধারণাটি ক্লদ শ্যানন তার 1948 সালের গবেষণাপত্র "যোগাযোগের গাণিতিক তত্ত্ব"-এ প্রবর্তন করেছিলেন। এখান থেকেই "শ্যাননের তথ্যগত এনট্রপি" শব্দটি এসেছে।
সংজ্ঞা এবং সিস্টেম
একটি ডেটা ট্রান্সমিশন সিস্টেমের মৌলিক মডেল তিনটি উপাদান নিয়ে গঠিত: একটি ডেটা উৎস, একটি যোগাযোগ চ্যানেল এবং একটি রিসিভার,এবং, যেমন শ্যানন বলেছেন, "মৌলিক যোগাযোগের সমস্যা" হল রিসিভারের জন্য চ্যানেলের মাধ্যমে প্রাপ্ত সংকেতের উপর ভিত্তি করে উৎস দ্বারা কোন ডেটা উৎপন্ন হয়েছে তা শনাক্ত করতে সক্ষম। এনট্রপি সংকুচিত উত্স ডেটার সর্বনিম্ন সম্ভাব্য গড় ক্ষতিহীন এনকোডিং দৈর্ঘ্যের উপর একটি সম্পূর্ণ সীমাবদ্ধতা প্রদান করে। যদি উত্সের এনট্রপি যোগাযোগ চ্যানেলের ব্যান্ডউইথের চেয়ে কম হয়, তবে এটি যে ডেটা তৈরি করে তা প্রাপকের কাছে নির্ভরযোগ্যভাবে প্রেরণ করা যেতে পারে (অন্তত তাত্ত্বিকভাবে, সম্ভবত ডেটা প্রেরণের জন্য প্রয়োজনীয় সিস্টেমের জটিলতার মতো কিছু ব্যবহারিক বিবেচনাকে উপেক্ষা করে) এবং ডেটা প্রেরণ করতে কতটা সময় লাগতে পারে)।
তথ্য এনট্রপি সাধারণত বিটগুলিতে পরিমাপ করা হয় (বিকল্পভাবে "শ্যাননস" বলা হয়) বা কখনও কখনও "প্রাকৃতিক একক" (ন্যাট) বা দশমিক স্থানে (যাকে "ডিটস", "ব্যানস" বা "হার্টলি" বলা হয়)। পরিমাপের একক লগারিদমের ভিত্তির উপর নির্ভর করে, যা এনট্রপি নির্ধারণ করতে ব্যবহৃত হয়।
বৈশিষ্ট্য এবং লগারিদম
লগ সম্ভাব্যতা বন্টন এনট্রপির পরিমাপ হিসাবে কার্যকর কারণ এটি স্বাধীন উত্সের জন্য সংযোজন। উদাহরণস্বরূপ, একটি মুদ্রার ন্যায্য বাজির এনট্রপি হল 1 বিট, যেখানে m-ভলিউমের এনট্রপি হল m বিট। একটি সাধারণ উপস্থাপনায়, log2(n) বিট প্রয়োজন এমন একটি ভেরিয়েবলকে উপস্থাপন করার জন্য যা n এর একটি মানের ধারণ করতে পারে যদি n এর শক্তি 2 হয়। যদি এই মানগুলি সমানভাবে সম্ভব হয়, তাহলে এনট্রপি (বিটগুলিতে) হয় সেই সংখ্যার সমান। যদি একটি মান অন্যদের তুলনায় বেশি হয়, তবে এটি পর্যবেক্ষণ করা হয়অর্থ ঘটবে, কম তথ্যপূর্ণ যদি কিছু কম সাধারণ ফলাফল ঘটবে। বিপরীতভাবে, বিরল ঘটনা অতিরিক্ত ট্র্যাকিং তথ্য প্রদান করে।
যেহেতু কম সম্ভাব্য ইভেন্টগুলির পর্যবেক্ষণ কম ঘন ঘন হয়, অসমভাবে বিতরণ করা ডেটা থেকে প্রাপ্ত এনট্রপি (গড় তথ্য হিসাবে বিবেচিত) সর্বদা log2(n) এর থেকে কম বা সমান হয় এমন কিছু মিল নেই। একটি ফলাফল সংজ্ঞায়িত করা হলে এনট্রপি শূন্য হয়।
শ্যাননের তথ্য এনট্রপি এই বিবেচনাগুলিকে পরিমাপ করে যখন অন্তর্নিহিত ডেটার সম্ভাব্যতা বিতরণ জানা যায়। পর্যবেক্ষিত ঘটনার অর্থ (বার্তার অর্থ) এনট্রপির সংজ্ঞায় অপ্রাসঙ্গিক। পরবর্তীটি শুধুমাত্র একটি নির্দিষ্ট ইভেন্ট দেখার সম্ভাবনাকে বিবেচনা করে, তাই এটি যে তথ্যগুলিকে ধারণ করে তা হল সম্ভাবনার অন্তর্নিহিত বন্টন সম্পর্কে ডেটা, ঘটনাগুলির অর্থ সম্পর্কে নয়। তথ্য এনট্রপির বৈশিষ্ট্য উপরে বর্ণিত হিসাবে একই থাকে৷
তথ্য তত্ত্ব
তথ্য তত্ত্বের মূল ধারণা হল যে একটি বিষয় সম্পর্কে যত বেশি জানবে, তত কম তথ্য পেতে পারে। যদি একটি ঘটনা খুব সম্ভব হয়, এটি যখন ঘটে তখন এটি আশ্চর্যজনক নয় এবং তাই সামান্য নতুন তথ্য প্রদান করে। বিপরীতভাবে, যদি ঘটনাটি অসম্ভব ছিল, তবে ঘটনাটি ঘটেছে তা অনেক বেশি তথ্যপূর্ণ ছিল। অতএব, পেলোড হল ঘটনার বিপরীত সম্ভাবনার একটি ক্রমবর্ধমান ফাংশন (1 / p)।
এখন যদি আরও ঘটনা ঘটে, এনট্রপিকোনো একটি ঘটনা ঘটলে আপনি আশা করতে পারেন এমন গড় তথ্য সামগ্রী পরিমাপ করে। এর মানে হল যে একটি ডাই ঢালাই একটি মুদ্রা ছুঁড়ে ফেলার চেয়ে বেশি এনট্রপি আছে কারণ প্রতিটি ক্রিস্টাল ফলাফলের প্রতিটি মুদ্রার ফলাফলের চেয়ে কম সম্ভাবনা রয়েছে৷
বৈশিষ্ট্য
এইভাবে, এনট্রপি হল একটি রাষ্ট্রের অনির্দেশ্যতার পরিমাপ বা, যা একই জিনিস, তার গড় তথ্য সামগ্রী। এই পদগুলির একটি স্বজ্ঞাত বোঝার জন্য, একটি রাজনৈতিক ভোটের উদাহরণ বিবেচনা করুন। সাধারণত এই ধরনের ভোট হয় কারণ, উদাহরণস্বরূপ, নির্বাচনের ফলাফল এখনও জানা যায়নি।
অন্য কথায়, সমীক্ষার ফলাফল তুলনামূলকভাবে অপ্রত্যাশিত, এবং প্রকৃতপক্ষে, এটি পরিচালনা করা এবং ডেটা পরীক্ষা করা কিছু নতুন তথ্য প্রদান করে; ভোটের ফলাফলের পূর্বের এনট্রপি বড় বলে বলার তারা ভিন্ন উপায়।
এখন সেই ক্ষেত্রে বিবেচনা করুন যেখানে প্রথমটির পরেই একই পোল দ্বিতীয়বার সঞ্চালিত হয়। যেহেতু প্রথম জরিপের ফলাফল ইতিমধ্যেই জানা গেছে, তাই দ্বিতীয় জরিপের ফলাফল ভালোভাবে অনুমান করা যায় এবং ফলাফলে খুব বেশি নতুন তথ্য থাকা উচিত নয়; এই ক্ষেত্রে, দ্বিতীয় ভোটের ফলাফলের অগ্রাধিকার এনট্রপি প্রথমটির তুলনায় ছোট৷
কয়েন টস
এখন একটি মুদ্রা উল্টানোর উদাহরণ বিবেচনা করুন। ধরে নিলাম যে লেজের সম্ভাবনা মাথার সম্ভাবনার সমান, একটি মুদ্রা টসের এনট্রপি খুব বেশি, কারণ এটি একটি সিস্টেমের তথ্যগত এনট্রপির একটি অদ্ভুত উদাহরণ৷
এর কারণযে একটি মুদ্রার ফলাফল সময়ের আগে ছুঁড়ে ফেলা হয়েছে তা ভবিষ্যদ্বাণী করা অসম্ভব: যদি আমাদের বেছে নিতে হয়, তাহলে আমরা যা করতে পারি তা হল ভবিষ্যদ্বাণী করা যে মুদ্রাটি লেজের উপর পড়বে এবং এই ভবিষ্যদ্বাণীটি সম্ভাব্যতার সাথে সঠিক হবে 1 / 2. এই ধরনের কয়েন টসের এক বিট এনট্রপি থাকে, যেহেতু সমান সম্ভাবনার সাথে দুটি সম্ভাব্য ফলাফল ঘটতে পারে এবং প্রকৃত ফলাফল অধ্যয়ন করলে এক বিট তথ্য থাকে।
বিপরীতভাবে, একটি মুদ্রা উল্টানোতে উভয় পাশে লেজ এবং মাথা ছাড়া শূন্য এনট্রপি নেই কারণ মুদ্রাটি সর্বদা এই চিহ্নের উপর অবতরণ করবে এবং ফলাফলটি নিখুঁতভাবে অনুমান করা যেতে পারে।
উপসংহার
যদি কম্প্রেশন স্কিমটি ক্ষতিহীন হয়, মানে আপনি সর্বদা ডিকম্প্রেস করে পুরো মূল বার্তাটি পুনরুদ্ধার করতে পারেন, তাহলে সংকুচিত বার্তাটিতে মূলের মতো একই পরিমাণ তথ্য থাকে, তবে কম অক্ষরে প্রেরণ করা হয়। অর্থাৎ এতে অক্ষর প্রতি আরও তথ্য বা উচ্চতর এনট্রপি রয়েছে। এর অর্থ হল সংকুচিত বার্তাটির অপ্রয়োজনীয়তা কম৷
মোটামুটিভাবে বলতে গেলে, শ্যাননের সোর্স কোড কোডিং থিওরেম বলে যে একটি ক্ষতিহীন কম্প্রেশন স্কিম বার্তাগুলিকে কমাতে পারে না যাতে প্রতি বার্তা বিটে এক বিটের বেশি তথ্য থাকে, তবে প্রতি বিটে এক বিটের কম তথ্যের মান অর্জন করা যায় উপযুক্ত এনকোডিং স্কিম ব্যবহার করে বার্তা। একটি বার্তার এনট্রপি বিট গুণে তার দৈর্ঘ্যের পরিমাপ হল এতে কতটা সাধারণ তথ্য রয়েছে।