ক্লাস্টারিং পদ্ধতি: বর্ণনা, মৌলিক ধারণা, অ্যাপ্লিকেশন বৈশিষ্ট্য

সুচিপত্র:

ক্লাস্টারিং পদ্ধতি: বর্ণনা, মৌলিক ধারণা, অ্যাপ্লিকেশন বৈশিষ্ট্য
ক্লাস্টারিং পদ্ধতি: বর্ণনা, মৌলিক ধারণা, অ্যাপ্লিকেশন বৈশিষ্ট্য
Anonim

ক্লাস্টারিং পদ্ধতি হল বস্তুর একটি সেটকে এমনভাবে গোষ্ঠীবদ্ধ করা যাতে একই গোষ্ঠীতে তারা অন্যান্য শিল্পের বস্তুর তুলনায় একে অপরের সাথে আরও বেশি মিল থাকে। এটি ডেটা মাইনিং এর প্রাথমিক কাজ এবং মেশিন লার্নিং, প্যাটার্ন রিকগনিশন, ইমেজ রিকগনিশন, তথ্য পুনরুদ্ধার, ডেটা কম্প্রেশন এবং কম্পিউটার গ্রাফিক্স সহ অনেক ক্ষেত্রে ব্যবহৃত একটি সাধারণ পরিসংখ্যানগত বিশ্লেষণ কৌশল।

অপ্টিমাইজেশান সমস্যা

ক্লাস্টারিং পদ্ধতি ব্যবহার করে
ক্লাস্টারিং পদ্ধতি ব্যবহার করে

ক্লাস্টারিং পদ্ধতি নিজেই একটি নির্দিষ্ট অ্যালগরিদম নয়, তবে একটি সাধারণ কাজ যা সমাধান করা দরকার। এটি বিভিন্ন অ্যালগরিদমের সাহায্যে অর্জন করা যেতে পারে যা একটি গোষ্ঠী কী গঠন করে এবং কীভাবে এটি দক্ষতার সাথে খুঁজে পাওয়া যায় তা বোঝার ক্ষেত্রে উল্লেখযোগ্যভাবে আলাদা। মেটাসাবজেক্ট গঠনের জন্য ক্লাস্টারিং পদ্ধতির ব্যবহার এর সাথে একটি গ্রুপের ব্যবহার অন্তর্ভুক্তসদস্যদের মধ্যে ছোট দূরত্ব, স্থানের ঘন অঞ্চল, ব্যবধান, বা নির্দিষ্ট পরিসংখ্যানগত বন্টন। অতএব, ক্লাস্টারিং একটি বহু-উদ্দেশ্য অপ্টিমাইজেশান সমস্যা হিসাবে প্রণয়ন করা যেতে পারে৷

যথাযথ পদ্ধতি এবং পরামিতি সেটিংস (ব্যবহারের দূরত্ব ফাংশন, ঘনত্ব থ্রেশহোল্ড বা প্রত্যাশিত ক্লাস্টারের সংখ্যার মতো আইটেমগুলি সহ) পৃথক ডেটা সেট এবং ফলাফলের উদ্দেশ্যমূলক ব্যবহারের উপর নির্ভর করে। যেমন বিশ্লেষণ একটি স্বয়ংক্রিয় কাজ নয়, কিন্তু জ্ঞান আবিষ্কার বা ইন্টারেক্টিভ বহু-উদ্দেশ্য অপ্টিমাইজেশানের একটি পুনরাবৃত্তিমূলক প্রক্রিয়া। এই ক্লাস্টারিং পদ্ধতিতে ট্রায়াল এবং ত্রুটি প্রচেষ্টা অন্তর্ভুক্ত রয়েছে। ফলাফলটি পছন্দসই বৈশিষ্ট্যগুলি অর্জন না করা পর্যন্ত ডেটা প্রিপ্রসেসিং এবং মডেল প্যারামিটারগুলিকে প্রায়শই পরিবর্তন করতে হয়৷

"ক্লাস্টারিং" শব্দটি ছাড়াও স্বয়ংক্রিয় শ্রেণীবিভাগ, সংখ্যাসূচক শ্রেণীবিন্যাস, উভয়বিদ্যা এবং টাইপোলজিকাল বিশ্লেষণ সহ অনুরূপ অর্থ সহ বেশ কয়েকটি শব্দ রয়েছে। সূক্ষ্ম পার্থক্য প্রায়শই মেটাসাবজেক্ট সম্পর্ক গঠনের জন্য ক্লাস্টারিং পদ্ধতি ব্যবহার করে। তথ্য নিষ্কাশনের সময় ফলাফল গোষ্ঠীগুলি আগ্রহের বিষয়, স্বয়ংক্রিয় শ্রেণীবিভাগে এটি ইতিমধ্যেই বৈষম্যমূলক শক্তি যা এই ফাংশনগুলি সম্পাদন করে৷

ক্লাস্টার বিশ্লেষণ 1932 সালে ক্রোয়েবারের অসংখ্য কাজের উপর ভিত্তি করে করা হয়েছিল। এটি 1938 সালে জুবিন এবং 1939 সালে রবার্ট ট্রায়ন মনোবিজ্ঞানে প্রবর্তন করেছিলেন। এবং এই কাজগুলি 1943 সাল থেকে ক্যাটেল দ্বারা তত্ত্বে ক্লাস্টারিং পদ্ধতির শ্রেণীবিভাগ নির্দেশ করার জন্য ব্যবহার করা হয়েছে৷

মেয়াদ

ব্যবহারপদ্ধতি
ব্যবহারপদ্ধতি

"ক্লাস্টার" ধারণাটি সুনির্দিষ্টভাবে সংজ্ঞায়িত করা যায় না। অনেক ক্লাস্টারিং পদ্ধতি আছে কেন এটি একটি কারণ। একটি সাধারণ হর আছে: ডেটা অবজেক্টের একটি গ্রুপ। যাইহোক, বিভিন্ন গবেষক বিভিন্ন মডেল ব্যবহার করেন। এবং ক্লাস্টারিং পদ্ধতির এই প্রতিটি ব্যবহারের সাথে বিভিন্ন ডেটা জড়িত। বিভিন্ন অ্যালগরিদম দ্বারা প্রাপ্ত ধারণাটি এর বৈশিষ্ট্যগুলির মধ্যে উল্লেখযোগ্যভাবে পৃথক৷

ক্লাস্টারিং পদ্ধতি ব্যবহার করা নির্দেশাবলীর মধ্যে পার্থক্য বোঝার মূল চাবিকাঠি। সাধারণ ক্লাস্টার প্যাটার্নের মধ্যে রয়েছে:

  • সেন্ট্রয়েড এটি, উদাহরণস্বরূপ, যখন k-মানে ক্লাস্টারিং একটি গড় ভেক্টর সহ প্রতিটি ক্লাস্টারকে প্রতিনিধিত্ব করে।
  • কানেক্টিভিটি মডেল এটি, উদাহরণস্বরূপ, শ্রেণীবদ্ধ ক্লাস্টারিং, যা দূরত্ব সংযোগের উপর ভিত্তি করে মডেল তৈরি করে৷
  • ডিস্ট্রিবিউশন মডেল এই ক্ষেত্রে, ক্লাস্টারগুলি মেটাসাবজেক্ট পরিসংখ্যানগত বন্টন গঠনের জন্য ক্লাস্টারিং পদ্ধতি ব্যবহার করে মডেল করা হয়। যেমন মাল্টিভেরিয়েট নরমাল সেপারেশন, যা এক্সপেক্টেশন ম্যাক্সিমাইজেশন অ্যালগরিদমের জন্য প্রযোজ্য।
  • ঘনত্বের মডেল এগুলি হল, উদাহরণস্বরূপ, ডিবিএসসিএএন (গোলমাল সহ স্থানিক ক্লাস্টারিং অ্যালগরিদম) এবং অপটিকস (গঠন সনাক্তকরণের জন্য অর্ডার পয়েন্ট), যা ক্লাস্টারগুলিকে ডেটা স্পেসে সংযুক্ত ঘন অঞ্চল হিসাবে সংজ্ঞায়িত করে৷
  • সাবস্পেস মডেল গ. বাইক্লাস্টারিং-এ (কো-ক্লাস্টারিং বা দুটি মোড নামেও পরিচিত), গোষ্ঠীগুলি উভয় উপাদান এবং উপযুক্ত বৈশিষ্ট্যগুলির সাথে মডেল করা হয়৷
  • মডেল কিছু অ্যালগরিদম তা করে নামেটা-বিষয় ফলাফল তৈরি করতে এবং কেবল তথ্য গ্রুপিং প্রদানের জন্য তাদের ক্লাস্টারিং পদ্ধতির জন্য পরিমার্জিত সম্পর্ক৷
  • গ্রাফের উপর ভিত্তি করে মডেল। একটি চক্র, অর্থাৎ, নোডের একটি উপসেট, যেমন প্রান্ত অংশে প্রতিটি দুটি সংযোগকে ক্লাস্টার আকারের একটি প্রোটোটাইপ হিসাবে বিবেচনা করা যেতে পারে। মোট চাহিদার দুর্বলতাকে বলা হয় কোয়াসি-ক্লিক। ঠিক একই নাম HCS ক্লাস্টারিং অ্যালগরিদমে উপস্থাপিত হয়েছে৷
  • নিউরাল মডেলগুলি সর্বোত্তম পরিচিত অতত্ত্বাবধানহীন নেটওয়ার্ক হল স্ব-সংগঠিত মানচিত্র। এবং এটি এই মডেলগুলি যা সাধারণত মেটা-বিষয় ফলাফল গঠনের জন্য উপরের এক বা একাধিক ক্লাস্টারিং পদ্ধতির অনুরূপ হিসাবে চিহ্নিত করা যেতে পারে। এটিতে সাবস্পেস সিস্টেম অন্তর্ভুক্ত থাকে যখন নিউরাল নেটওয়ার্কগুলি প্রধান বা স্বাধীন উপাদান বিশ্লেষণের প্রয়োজনীয় ফর্ম বাস্তবায়ন করে৷

এই শব্দটি প্রকৃতপক্ষে এই ধরনের গোষ্ঠীর একটি সেট, যা সাধারণত ডেটা ক্লাস্টারিং পদ্ধতির সেটের সমস্ত বস্তু ধারণ করে। উপরন্তু, এটি একে অপরের সাথে ক্লাস্টারগুলির সম্পর্ক নির্দেশ করতে পারে, যেমন একে অপরের মধ্যে নির্মিত সিস্টেমগুলির একটি শ্রেণিবিন্যাস। গ্রুপিংকে নিম্নলিখিত দিকগুলিতে ভাগ করা যেতে পারে:

  • হার্ড সেন্ট্রোয়েড ক্লাস্টারিং পদ্ধতি। এখানে, প্রতিটি বস্তু একটি গোষ্ঠীর অন্তর্গত বা এর বাইরে।
  • নরম বা অস্পষ্ট সিস্টেম। এই মুহুর্তে, প্রতিটি বস্তু ইতিমধ্যেই যে কোনও ক্লাস্টারের একটি নির্দিষ্ট পরিমাণের অন্তর্গত। একে সি-মিনস ফাজি ক্লাস্টারিং পদ্ধতিও বলা হয়৷

এবং আরও সূক্ষ্ম পার্থক্যও সম্ভব। যেমন:

  • কঠোর পার্টিশন ক্লাস্টারিং। এখানেপ্রতিটি বস্তু ঠিক একটি গ্রুপের অন্তর্গত।
  • আউটলায়ার্স সহ কঠোর বিভাজন ক্লাস্টারিং। এই ক্ষেত্রে, বস্তুগুলি কোনও ক্লাস্টারের অন্তর্গত নাও হতে পারে এবং অপ্রয়োজনীয় বলে বিবেচিত হতে পারে৷
  • ওভারল্যাপিং ক্লাস্টারিং (এছাড়াও বিকল্প, একাধিক ভিউ সহ)। এখানে, বস্তু একাধিক শাখার অন্তর্গত হতে পারে। সাধারণত কঠিন ক্লাস্টার জড়িত।
  • অনুক্রমিক ক্লাস্টারিং পদ্ধতি। একটি শিশু গোষ্ঠীর অন্তর্গত বস্তুগুলিও অভিভাবক সাবসিস্টেমের অন্তর্গত৷
  • সাবস্পেস গঠন। যদিও ওভারল্যাপিং ক্লাস্টারের মতো, একটি স্বতন্ত্রভাবে সংজ্ঞায়িত সিস্টেমের মধ্যে, পারস্পরিক গোষ্ঠীগুলিকে ওভারল্যাপ করা উচিত নয়।

নির্দেশ

গঠন করার জন্য ক্লাস্টারিং পদ্ধতি ব্যবহার করে
গঠন করার জন্য ক্লাস্টারিং পদ্ধতি ব্যবহার করে

উপরে উল্লিখিত হিসাবে, ক্লাস্টারিং অ্যালগরিদমগুলি তাদের ক্লাস্টার মডেলের উপর ভিত্তি করে শ্রেণীবদ্ধ করা যেতে পারে। নিম্নলিখিত পর্যালোচনা এই নির্দেশাবলীর শুধুমাত্র সবচেয়ে বিশিষ্ট উদাহরণ তালিকাভুক্ত করবে। যেহেতু 100 টির বেশি প্রকাশিত অ্যালগরিদম থাকতে পারে, তাই সকলেই তাদের ক্লাস্টারগুলির জন্য মডেল সরবরাহ করে না এবং তাই সহজে শ্রেণীবদ্ধ করা যায় না৷

কোন বস্তুনিষ্ঠভাবে সঠিক ক্লাস্টারিং অ্যালগরিদম নেই। তবে, উপরে উল্লিখিত হিসাবে, নির্দেশটি সর্বদা পর্যবেক্ষকের দৃষ্টিভঙ্গির ক্ষেত্রে থাকে। একটি নির্দিষ্ট সমস্যার জন্য সবচেয়ে উপযুক্ত ক্লাস্টারিং অ্যালগরিদমটি প্রায়শই পরীক্ষামূলকভাবে বেছে নিতে হয়, যদি না একটি মডেলের চেয়ে অন্যটিকে পছন্দ করার জন্য একটি গাণিতিক কারণ থাকে। এটি লক্ষ করা উচিত যে একটি একক ধরণের জন্য ডিজাইন করা একটি অ্যালগরিদম সাধারণত কাজ করে নাএকটি ডেটাসেট যা একটি আমূল ভিন্ন বিষয় ধারণ করে। উদাহরণ স্বরূপ, k- মানে অ-উত্তল গোষ্ঠী খুঁজে পায় না।

সংযোগ-ভিত্তিক ক্লাস্টারিং

ক্লাস্টারিং পদ্ধতি
ক্লাস্টারিং পদ্ধতি

এই ইউনিয়নটি এর নামেও পরিচিত, শ্রেণীবিন্যাস মডেল। এটি সাধারণ ধারণার উপর ভিত্তি করে যে বস্তুগুলি প্রতিবেশী অংশগুলির সাথে অনেক বেশি দূরে অবস্থিতগুলির তুলনায় বেশি সংযুক্ত। এই অ্যালগরিদমগুলি বস্তুকে সংযুক্ত করে, তাদের দূরত্বের উপর নির্ভর করে বিভিন্ন ক্লাস্টার তৈরি করে। ক্লাস্টারের বিভিন্ন অংশকে সংযোগ করার জন্য যে সর্বোচ্চ দূরত্ব প্রয়োজন তা দ্বারা একটি গোষ্ঠীকে প্রধানত বর্ণনা করা যেতে পারে। সমস্ত সম্ভাব্য দূরত্বে, অন্যান্য গোষ্ঠী তৈরি হবে, যা একটি ডেনড্রোগ্রাম ব্যবহার করে উপস্থাপন করা যেতে পারে। এটি ব্যাখ্যা করে যে সাধারণ নাম "হায়ারার্কিক্যাল ক্লাস্টারিং" কোথা থেকে এসেছে। অর্থাৎ, এই অ্যালগরিদমগুলি ডেটাসেটের একটি একক বিভাজন প্রদান করে না, বরং কর্তৃপক্ষের একটি বিস্তৃত আদেশ প্রদান করে। এটা তাকে ধন্যবাদ যে নির্দিষ্ট দূরত্বে একে অপরের সাথে একটি ড্রেন আছে। একটি ডেনড্রোগ্রামে, y-অক্ষটি বোঝায় যে দূরত্বে ক্লাস্টারগুলি একত্রিত হয়। এবং বস্তুগুলিকে X লাইন বরাবর সাজানো হয়েছে যাতে দলগুলি মিশে না যায়৷

সংযোগ-ভিত্তিক ক্লাস্টারিং পদ্ধতির একটি সম্পূর্ণ পরিবার যা দূরত্ব গণনা করার পদ্ধতিতে ভিন্ন। দূরত্ব ফাংশনগুলির স্বাভাবিক পছন্দ ছাড়াও, ব্যবহারকারীকে সংযোগের মানদণ্ডের বিষয়েও সিদ্ধান্ত নিতে হবে। যেহেতু একটি ক্লাস্টারে অনেকগুলি বস্তু থাকে, তাই এটি গণনার জন্য অনেকগুলি বিকল্প রয়েছে। একটি জনপ্রিয় পছন্দ একক-লিভার গ্রুপিং হিসাবে পরিচিত, এই পদ্ধতিসম্পূর্ণ লিঙ্ক, যা UPGMA বা WPGMA ধারণ করে (পাটিগণিত গড় সহ জোড়ার ওজনহীন বা ওজনযুক্ত ensemble, যা গড় লিঙ্ক ক্লাস্টারিং নামেও পরিচিত)। উপরন্তু, শ্রেণীবিন্যাস ব্যবস্থা সমষ্টিগত হতে পারে (স্বতন্ত্র উপাদান দিয়ে শুরু করে এবং তাদের গোষ্ঠীতে একত্রিত করা) বা বিভাজন (একটি সম্পূর্ণ ডেটা সেট দিয়ে শুরু করে এবং এটিকে ভাগে ভাগ করে)।

বিতরণ করা ক্লাস্টারিং

গঠনের ক্লাস্টারিং পদ্ধতি
গঠনের ক্লাস্টারিং পদ্ধতি

এই মডেলগুলি বিভাজনের উপর ভিত্তি করে পরিসংখ্যানের সাথে সবচেয়ে ঘনিষ্ঠভাবে সম্পর্কিত। ক্লাস্টারগুলিকে সহজেই বস্তু হিসাবে সংজ্ঞায়িত করা যেতে পারে যেগুলি সম্ভবত একই বিতরণের অন্তর্গত। এই পদ্ধতির একটি সুবিধাজনক বৈশিষ্ট্য হল এটি যেভাবে কৃত্রিম ডেটাসেট তৈরি করা হয় তার অনুরূপ। একটি ডিস্ট্রিবিউশন থেকে এলোমেলো বস্তুর নমুনা নিয়ে।

যদিও এই পদ্ধতিগুলির তাত্ত্বিক ভিত্তি চমৎকার, তারা একটি মূল সমস্যায় ভুগছে, যা ওভারফিটিং নামে পরিচিত, যদি না মডেলের জটিলতার উপর সীমা আরোপ করা হয়। একটি বৃহত্তর অ্যাসোসিয়েশন সাধারণত ডেটাকে আরও ভালভাবে ব্যাখ্যা করে, সঠিক পদ্ধতি বেছে নেওয়া কঠিন করে তোলে৷

গাউসিয়ান মিশ্রণ মডেল

এই পদ্ধতিটি সমস্ত ধরণের প্রত্যাশা সর্বাধিকীকরণ অ্যালগরিদম ব্যবহার করে৷ এখানে, ডেটাসেটটি সাধারণত গাউসিয়ান ডিস্ট্রিবিউশনের একটি নির্দিষ্ট (ওভাররাইডিং এড়াতে) সংখ্যার সাথে মডেল করা হয় যা এলোমেলোভাবে শুরু করা হয় এবং যার প্যারামিটারগুলি ডেটাসেটের সাথে আরও ভালভাবে ফিট করার জন্য পুনরাবৃত্তিমূলকভাবে অপ্টিমাইজ করা হয়। এই সিস্টেম একটি স্থানীয় সর্বোত্তম রূপান্তর হবে. যে কারণে বেশ কিছু রান দিতে পারেনবিভিন্ন ফলাফল। সবচেয়ে আঁটসাঁট ক্লাস্টারিং পেতে, বৈশিষ্ট্যগুলি প্রায়ই গাউসিয়ান ডিস্ট্রিবিউশনে বরাদ্দ করা হয় যেগুলির অন্তর্ভুক্ত হওয়ার সম্ভাবনা বেশি। এবং নরম দলগুলির জন্য, এটি প্রয়োজনীয় নয়৷

ডিস্ট্রিবিউশন-ভিত্তিক ক্লাস্টারিং জটিল মডেল তৈরি করে যা শেষ পর্যন্ত বৈশিষ্ট্যগুলির মধ্যে পারস্পরিক সম্পর্ক এবং নির্ভরতা ক্যাপচার করতে পারে। যাইহোক, এই অ্যালগরিদমগুলি ব্যবহারকারীর উপর অতিরিক্ত বোঝা চাপিয়ে দেয়। অনেক বাস্তব বিশ্বের ডেটাসেটের জন্য, একটি সংক্ষিপ্তভাবে সংজ্ঞায়িত গাণিতিক মডেল নাও থাকতে পারে (উদাহরণস্বরূপ, একটি গাউসিয়ান ডিস্ট্রিবিউশনকে মোটামুটি শক্তিশালী অনুমান করা হয়)।

ঘনত্ব ভিত্তিক ক্লাস্টারিং

গঠনে ক্লাস্টারিং
গঠনে ক্লাস্টারিং

এই উদাহরণে, গোষ্ঠীগুলিকে মূলত অন্যান্য ডেটাসেটের তুলনায় উচ্চতর অভেদ্যতা সহ এলাকা হিসাবে সংজ্ঞায়িত করা হয়। এই বিরল অংশগুলির বস্তুগুলি, যা সমস্ত উপাদান আলাদা করার জন্য প্রয়োজনীয়, সাধারণত শব্দ এবং প্রান্ত বিন্দু হিসাবে বিবেচিত হয়৷

সবচেয়ে জনপ্রিয় ঘনত্ব-ভিত্তিক ক্লাস্টারিং পদ্ধতি হল DBSCAN (স্থানীয় নয়েজ ক্লাস্টারিং অ্যালগরিদম)। অনেক নতুন পদ্ধতির বিপরীতে, এটির একটি সু-সংজ্ঞায়িত ক্লাস্টার উপাদান রয়েছে যাকে বলা হয় "ঘনত্বের পৌঁছানোযোগ্যতা"। লিঙ্ক-ভিত্তিক ক্লাস্টারিংয়ের মতো, এটি নির্দিষ্ট দূরত্বের থ্রেশহোল্ডের মধ্যে সংযোগ বিন্দুর উপর ভিত্তি করে। যাইহোক, এই পদ্ধতিটি শুধুমাত্র সেই আইটেমগুলিকে সংগ্রহ করে যা ঘনত্বের মানদণ্ড পূরণ করে। মূল সংস্করণে, এই ব্যাসার্ধের অন্যান্য বস্তুর ন্যূনতম সংখ্যা হিসাবে সংজ্ঞায়িত করা হয়েছে, ক্লাস্টারটি সবগুলি নিয়ে গঠিতঘনত্ব-সম্পর্কিত আইটেম (যা একটি ফ্রি-ফর্ম গ্রুপ গঠন করতে পারে, অন্য অনেক পদ্ধতির বিপরীতে), এবং সমস্ত বস্তু যা অনুমোদিত সীমার মধ্যে রয়েছে।

DBSCAN-এর আর একটি আকর্ষণীয় বৈশিষ্ট্য হল যে এর জটিলতা বেশ কম - এর জন্য ডাটাবেসের বিরুদ্ধে একটি রৈখিক সংখ্যক রেঞ্জ কোয়েরি প্রয়োজন। এবং এটিও অস্বাভাবিক যে এটি প্রতিটি দৌড়ে মূলত একই ফলাফল খুঁজে পাবে (এটি কোর এবং নয়েজ পয়েন্টগুলির জন্য নির্ধারক, তবে সীমানা উপাদানগুলির জন্য নয়)। অতএব, এটি একাধিকবার চালানোর প্রয়োজন নেই।

DBSCAN এবং OPTICS-এর প্রধান অসুবিধা হল যে তারা ক্লাস্টার সীমানা সনাক্ত করতে ঘনত্বে কিছুটা হ্রাস আশা করে। উদাহরণস্বরূপ, ওভারল্যাপ করা গাউসিয়ান ডিস্ট্রিবিউশন সহ ডেটাসেটে-কৃত্রিম বস্তুর জন্য একটি সাধারণ ব্যবহারের ক্ষেত্রে-এই অ্যালগরিদমগুলির দ্বারা উত্পন্ন ক্লাস্টার সীমানাগুলি প্রায়ই নির্বিচারে প্রদর্শিত হয়। এটি ঘটে কারণ গ্রুপগুলির ঘনত্ব ক্রমাগত হ্রাস পাচ্ছে। এবং একটি গাউসিয়ান মিশ্রণ ডেটাসেটে, এই অ্যালগরিদমগুলি প্রায় সবসময় ইএম ক্লাস্টারিংয়ের মতো পদ্ধতিগুলিকে ছাড়িয়ে যায়, যা এই ধরণের সিস্টেমগুলিকে সঠিকভাবে মডেল করতে সক্ষম হয়৷

মান স্থানচ্যুতি হল একটি ক্লাস্টারিং পদ্ধতি যেখানে প্রতিটি বস্তু সমগ্র কার্নেলের অনুমানের উপর ভিত্তি করে আশেপাশের সবচেয়ে ঘন এলাকায় চলে যায়। শেষ পর্যন্ত, বস্তুগুলি স্থানীয় অভেদ্যতা ম্যাক্সিমাতে একত্রিত হয়। k- মানে ক্লাস্টারিংয়ের মতো, এই "ঘনত্ব আকর্ষণকারী" একটি ডেটাসেটের প্রতিনিধি হিসাবে কাজ করতে পারে। কিন্তু গড় পরিবর্তনDBSCAN-এর অনুরূপ নির্বিচারে আকৃতির ক্লাস্টার সনাক্ত করতে পারে। ব্যয়বহুল পুনরাবৃত্তিমূলক পদ্ধতি এবং ঘনত্ব অনুমানের কারণে, গড় স্থানচ্যুতি সাধারণত DBSCAN বা k-Means-এর চেয়ে ধীর হয়। উপরন্তু, উচ্চ-মাত্রিক ডেটাতে সাধারণ শিফট অ্যালগরিদমের প্রযোজ্যতা কার্নেলের ঘনত্ব অনুমানের অ-ইউনিফর্ম আচরণের কারণে কঠিন, যা ক্লাস্টার টেলের অত্যধিক খণ্ডের দিকে পরিচালিত করে।

রেটিং

মেটাসাবজেক্ট গঠনের জন্য ক্লাস্টারিং পদ্ধতি
মেটাসাবজেক্ট গঠনের জন্য ক্লাস্টারিং পদ্ধতি

ক্লাস্টারিং ফলাফল যাচাই করা ক্লাস্টারিংয়ের মতোই কঠিন। জনপ্রিয় পদ্ধতির মধ্যে রয়েছে "অভ্যন্তরীণ" স্কোরিং (যেখানে সিস্টেমটি মানের একটি একক পরিমাপে হ্রাস করা হয়) এবং অবশ্যই, "বহিরাগত" স্কোরিং (যেখানে ক্লাস্টারিংকে একটি বিদ্যমান "গ্রাউন্ড ট্রুথ" শ্রেণীবিভাগের সাথে তুলনা করা হয়)। এবং মানব বিশেষজ্ঞের ম্যানুয়াল স্কোর এবং পরোক্ষ স্কোর পাওয়া যায় উদ্দিষ্ট অ্যাপ্লিকেশনে ক্লাস্টারিংয়ের উপযোগিতা পরীক্ষা করে।

অভ্যন্তরীণ পতাকা পরিমাপগুলি এমন সমস্যায় ভুগছে যে তারা এমন বৈশিষ্ট্যগুলিকে উপস্থাপন করে যেগুলি নিজেদেরকে ক্লাস্টারিং লক্ষ্য হিসাবে বিবেচনা করা যেতে পারে। উদাহরণস্বরূপ, সিলুয়েট সহগ দ্বারা প্রদত্ত ডেটাকে গোষ্ঠীভুক্ত করা সম্ভব, এটি করার জন্য কোনও পরিচিত দক্ষ অ্যালগরিদম নেই। মূল্যায়নের জন্য এই ধরনের একটি অভ্যন্তরীণ পরিমাপ ব্যবহার করে, অপ্টিমাইজেশান সমস্যার সাদৃশ্য তুলনা করা ভাল৷

বাইরের চিহ্নেও একই রকম সমস্যা আছে। যদি "গ্রাউন্ড ট্রুথ" এর লেবেল থাকে, তবে গুচ্ছের দরকার নেই। এবং ব্যবহারিক অ্যাপ্লিকেশনে, সাধারণত এই ধরনের কোন ধারণা নেই। অন্যদিকে, লেবেলগুলি ডেটা সেটের শুধুমাত্র একটি সম্ভাব্য বিভাজন প্রতিফলিত করে, যার অর্থ এই নয়যে অন্য কোন (হয়তো ভালো) ক্লাস্টারিং নেই।

সুতরাং এই পদ্ধতির কোনোটিই প্রকৃত গুণমানকে শেষ পর্যন্ত বিচার করতে পারে না। কিন্তু এর জন্য মানুষের মূল্যায়ন প্রয়োজন, যা অত্যন্ত বিষয়ভিত্তিক। তথাপি, এই ধরনের পরিসংখ্যান খারাপ ক্লাস্টার সনাক্তকরণে তথ্যপূর্ণ হতে পারে। তবে একজন ব্যক্তির বিষয়গত মূল্যায়নকে ছাড় দেওয়া উচিত নয়।

ভিতরের চিহ্ন

যখন একটি ক্লাস্টারিংয়ের ফলাফলকে ক্লাস্টার করা ডেটার উপর ভিত্তি করে মূল্যায়ন করা হয়, তখন এটিকে এই শব্দ হিসাবে উল্লেখ করা হয়। এই পদ্ধতিগুলি সাধারণত একটি অ্যালগরিদমকে সর্বোত্তম ফলাফল বরাদ্দ করে যা গ্রুপগুলির মধ্যে উচ্চ মিল এবং গোষ্ঠীগুলির মধ্যে কম গোষ্ঠী তৈরি করে। ক্লাস্টার মূল্যায়নে অভ্যন্তরীণ মানদণ্ড ব্যবহার করার অসুবিধাগুলির মধ্যে একটি হল যে উচ্চ স্কোর অগত্যা কার্যকর তথ্য পুনরুদ্ধার অ্যাপ্লিকেশনের দিকে পরিচালিত করে না। এছাড়াও, এই স্কোরটি একই মডেল ব্যবহার করে এমন অ্যালগরিদমের প্রতি পক্ষপাতদুষ্ট। উদাহরণ স্বরূপ, কে-মানে ক্লাস্টারিং স্বাভাবিকভাবেই বৈশিষ্ট্যের দূরত্বকে অপ্টিমাইজ করে এবং এর উপর ভিত্তি করে একটি অভ্যন্তরীণ মাপকাঠি ফলস্বরূপ ক্লাস্টারিংকে অত্যধিক মূল্যায়ন করতে পারে৷

অতএব, একটি অ্যালগরিদম অন্যটির চেয়ে ভালো পারফর্ম করে এমন পরিস্থিতি সম্পর্কে ধারণা পাওয়ার জন্য এই মূল্যায়ন ব্যবস্থাগুলি সবচেয়ে উপযুক্ত। কিন্তু এর মানে এই নয় যে প্রতিটি তথ্য অন্যদের চেয়ে বেশি নির্ভরযোগ্য ফলাফল দেয়। এই ধরনের একটি সূচক দ্বারা পরিমাপ করা বৈধতা সময়কাল ডেটাসেটে কাঠামো বিদ্যমান থাকার দাবির উপর নির্ভর করে। কিছু ধরণের জন্য তৈরি করা একটি অ্যালগরিদম যদি সেটটিতে আমূলভাবে থাকে তবে কোন সুযোগ নেইভিন্ন রচনা বা যদি মূল্যায়ন ভিন্ন মাপকাঠি পরিমাপ করে। উদাহরণস্বরূপ, k-মানে ক্লাস্টারিং শুধুমাত্র উত্তল ক্লাস্টারগুলি খুঁজে পেতে পারে এবং অনেক স্কোর সূচক একই বিন্যাস ধরে নেয়। অ-উত্তল মডেল সহ একটি ডেটাসেটে, k-মান এবং সাধারণ মূল্যায়নের মানদণ্ড ব্যবহার করা অনুপযুক্ত।

বাহ্যিক মূল্যায়ন

এই ধরনের বলিংয়ের সাথে, ক্লাস্টারিং ফলাফলগুলিকে ডেটার উপর ভিত্তি করে মূল্যায়ন করা হয় যা গ্রুপিংয়ের জন্য ব্যবহার করা হয়নি। যে, যেমন পরিচিত ক্লাস লেবেল এবং বহিরাগত পরীক্ষা. এই জাতীয় প্রশ্নগুলি প্রাক-শ্রেণীবদ্ধ আইটেমগুলির একটি সেট নিয়ে গঠিত এবং প্রায়শই বিশেষজ্ঞদের (মানুষ) দ্বারা তৈরি করা হয়। যেমন, রেফারেন্স কিটগুলিকে মূল্যায়নের জন্য সোনার মান হিসাবে দেখা যেতে পারে। এই ধরনের স্কোরিং পদ্ধতি পরিমাপ করে যে ক্লাস্টারিং প্রদত্ত রেফারেন্স ক্লাসের কতটা কাছাকাছি। যাইহোক, সম্প্রতি আলোচনা করা হয়েছে যে এটি বাস্তব তথ্যের জন্য পর্যাপ্ত নাকি প্রকৃত গ্রাউন্ড ট্রুথ সহ শুধুমাত্র সিন্থেটিক সেটের জন্য। যেহেতু ক্লাসে অভ্যন্তরীণ কাঠামো থাকতে পারে, এবং বিদ্যমান বৈশিষ্ট্যগুলি ক্লাস্টারগুলিকে আলাদা করার অনুমতি নাও দিতে পারে। এছাড়াও, জ্ঞান আবিষ্কারের দৃষ্টিকোণ থেকে, পরিচিত তথ্যগুলি পুনরুত্পাদন করা অগত্যা প্রত্যাশিত ফলাফল নাও দিতে পারে। একটি বিশেষ সীমাবদ্ধ ক্লাস্টারিং পরিস্থিতিতে যেখানে মেটা-তথ্য (যেমন ক্লাস লেবেল) ইতিমধ্যেই গ্রুপিং প্রক্রিয়ায় ব্যবহৃত হয়েছে, মূল্যায়নের উদ্দেশ্যে সমস্ত তথ্য ধরে রাখা তুচ্ছ নয়৷

এখন এটা পরিষ্কার যে ক্লাস্টারিং পদ্ধতিতে কোনটি প্রযোজ্য নয় এবং এই উদ্দেশ্যে কোন মডেলগুলি ব্যবহার করা হয়৷

প্রস্তাবিত: