ফ্রিকোয়েন্সি টেক্সট বিশ্লেষণ: বৈশিষ্ট্য এবং উদাহরণ

সুচিপত্র:

ফ্রিকোয়েন্সি টেক্সট বিশ্লেষণ: বৈশিষ্ট্য এবং উদাহরণ
ফ্রিকোয়েন্সি টেক্সট বিশ্লেষণ: বৈশিষ্ট্য এবং উদাহরণ
Anonim

আপনি আপনার জীবনে এই ধারণাটি একাধিকবার পূরণ করেছেন যদি আপনাকে পাঠ্যের সাথে কাজ করতে হয়। বিশেষ করে, আপনি অনলাইন ক্যালকুলেটরগুলিতে যেতে পারেন যা পাঠ্যের ঠিক ফ্রিকোয়েন্সি বিশ্লেষণ করে। এই সহজ সরঞ্জামগুলি দেখায় যে পাঠ্যের যে কোনও উত্তরণে একটি নির্দিষ্ট অক্ষর বা অক্ষর কতবার ঘটে। প্রায়শই একটি শতাংশও দেখানো হয়। কেন এই প্রয়োজন? কিভাবে পাঠ্যের ফ্রিকোয়েন্সি বিশ্লেষণ সহজ সাইফারের "ক্র্যাকিং" এ অবদান রাখে? এর সারমর্ম কী, কে এটি আবিষ্কার করেছে? আমরা নিবন্ধের কোর্সে এই বিষয়ে এবং অন্যান্য গুরুত্বপূর্ণ প্রশ্নের উত্তর দেব।

সংজ্ঞা

ফ্রিকোয়েন্সি বিশ্লেষণ হল ক্রিপ্টানালাইসিসের একটি প্রকার। এটি পৃথক অক্ষরের পরিসংখ্যানগত অ-তুচ্ছ বণ্টনের অস্তিত্ব সম্পর্কে বিজ্ঞানীদের অনুমানের উপর ভিত্তি করে এবং প্লেইন এবং সাইফার টেক্সটে তাদের নিয়মিত ক্রম।

এটা বিশ্বাস করা হয় যে পৃথক অক্ষর প্রতিস্থাপন পর্যন্ত এই জাতীয় বিতরণ এনক্রিপশন/ডিক্রিপশন প্রক্রিয়াগুলিতেও সংরক্ষিত থাকবে।

সিস্টেমের ফ্রিকোয়েন্সি বিশ্লেষণ
সিস্টেমের ফ্রিকোয়েন্সি বিশ্লেষণ

প্রক্রিয়া বৈশিষ্ট্য

এখন আসুন সহজ ভাষায় ফ্রিকোয়েন্সি বিশ্লেষণের দিকে নজর দেওয়া যাক। এটি বোঝায় যে পর্যাপ্ত দৈর্ঘ্যের পাঠ্যগুলিতে একই বর্ণানুক্রমিক অক্ষরের সংঘটনের সংখ্যা একই ভাষায় লেখা বিভিন্ন পাঠ্যে একই।

এবং এখন monoalphabetic এনক্রিপশন সম্পর্কে কি? অনুমান করা হয় যে যদি সাইফারটেক্সট সহ বিভাগে অনুরূপ ঘটনার সম্ভাবনা সহ একটি অক্ষর থাকে, তাহলে অনুমান করা বাস্তবসম্মত যে এটি সেই সাইফার্ড অক্ষর।

ফ্রিকোয়েন্সি টেক্সট বিশ্লেষণের অনুসারীরা একই যুক্তি প্রয়োগ করে ডিগ্রামে (দুটি অক্ষরের ক্রম)। ট্রিগ্রাম - এটি ইতিমধ্যে পলিঅ্যালফাবেটিক সাইফারের ক্ষেত্রে।

পদ্ধতির ইতিহাস

শব্দের ফ্রিকোয়েন্সি বিশ্লেষণ আধুনিকতার সন্ধান নয়। এটি 9 শতক থেকে বৈজ্ঞানিক বিশ্বের কাছে পরিচিত। এর সৃষ্টি আল-কিন্দি নামের সাথে যুক্ত।

কিন্তু ফ্রিকোয়েন্সি বিশ্লেষণ পদ্ধতির প্রয়োগের পরিচিত ঘটনাগুলি অনেক পরবর্তী সময়ের অন্তর্গত। এখানে সবচেয়ে আকর্ষণীয় উদাহরণ হল মিশরীয় হায়ারোগ্লিফের পাঠোদ্ধার, 1822 সালে জে-এফ দ্বারা উত্পাদিত। চ্যাম্পিয়ন।

যদি আমরা কল্পকাহিনীতে ফিরে যাই, আমরা এই ডিক্রিপশন পদ্ধতির অনেক আকর্ষণীয় উল্লেখ খুঁজে পেতে পারি:

  • কোনান ডয়েল - "দ্য ডান্সিং ম্যান"।
  • জুলস ভার্ন - "চিলড্রেন অফ ক্যাপ্টেন গ্রান্ট"।
  • এডগার পো - "গোল্ড বাগ"।

তবে, গত শতাব্দীর মাঝামাঝি থেকে, এনক্রিপশনে ব্যবহৃত বেশিরভাগ অ্যালগরিদমগুলি এই ধরনের ফ্রিকোয়েন্সি ক্রিপ্টানালাইসিসের প্রতিরোধকে বিবেচনায় নিয়ে তৈরি করা হয়েছে। তাই এটাআজ এগুলি প্রায়শই কেবল ভবিষ্যতের ক্রিপ্টোগ্রাফারদের প্রশিক্ষণের জন্য ব্যবহৃত হয়৷

পাঠ্য ফ্রিকোয়েন্সি বিশ্লেষণ
পাঠ্য ফ্রিকোয়েন্সি বিশ্লেষণ

মৌলিক পদ্ধতি

আসুন এখন বিস্তারিতভাবে ফ্রিকোয়েন্সি প্রতিক্রিয়া বিশ্লেষণ উপস্থাপন করা যাক। এই ধরনের বিশ্লেষণ সরাসরি এই সত্যের উপর ভিত্তি করে যে পরীক্ষাটি শব্দগুলি নিয়ে গঠিত, এবং সেগুলি, ঘুরে, অক্ষরগুলির। জাতীয় বর্ণমালা পূরণ করে এমন অক্ষরের সংখ্যা সীমিত। চিঠিগুলি এখানে তালিকাভুক্ত করা যেতে পারে৷

এই জাতীয় পাঠ্যের সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি হ'ল বর্ণের পুনরাবৃত্তি, বিভিন্ন বিগ্রাম, ট্রিগ্রাম এবং এন-গ্রাম, পাশাপাশি একে অপরের সাথে বিভিন্ন বর্ণের সামঞ্জস্য, ব্যঞ্জনবর্ণ / স্বরবর্ণের পরিবর্তন এবং অন্যান্য। এই চিহ্নের বিভিন্ন প্রকার।

পদ্ধতিগুলির মূল ধারণাটি হল জাতীয় বর্ণমালার ({a1, a2, …, an}) দ্বারা চিহ্নিত। উপরের সবগুলি পাঠ্যের কিছু ধারাবাহিক m-গ্রামের কারণ:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

যদি এটি m-gram ai1ai2-এর সংঘটনের সংখ্যা হয়…একটি নির্দিষ্ট পাঠ্য T-এ লক্ষ্য করুন এবং L হল গবেষক দ্বারা বিশ্লেষণ করা মোট m-গ্রাম সংখ্যা, তাহলে এটি পরীক্ষামূলকভাবে প্রতিষ্ঠিত করা সম্ভব যে এর জন্য যথেষ্ট বড় L, এই ধরনের m-গ্রামের ফ্রিকোয়েন্সি একে অপরের থেকে একটু আলাদা হবে।

ফ্রিকোয়েন্সি বিশ্লেষণ
ফ্রিকোয়েন্সি বিশ্লেষণ

রাশিয়ান বর্ণমালার প্রায়শই ঘটে যাওয়া অক্ষর

কিন্তু সময়-ফ্রিকোয়েন্সি বিশ্লেষণ, একই নাম থাকা সত্ত্বেও, আমাদের কথোপকথনের বিষয়ের সাথে কিছুই করার নেই। বিশ্লেষণ এই ধরনের জন্য বাহিত হয়একটি বিশেষ তরঙ্গ রূপান্তর ব্যবহার করে স্বল্প-পর্যবেক্ষণযোগ্য রাডার স্টেশন থেকে সংকেত।

এবার মূল বিষয়ে ফিরে আসা যাক। ফ্রিকোয়েন্সি বিশ্লেষণ পরিচালনা করার সময়, আপনি খুঁজে পেতে পারেন যে রাশিয়ান বর্ণমালার কোন অক্ষরগুলি প্রায়শই মোটামুটি বিশাল পাঠ্যগুলিতে পাওয়া যায় (0.062 থেকে 0.018 পর্যন্ত শতাংশ):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • ও.
  • R.
  • T.
  • F.
  • T.
  • শ.
  • b.
  • E.
  • I.

এমনকি একটি বিশেষ স্মৃতি সংক্রান্ত নিয়ম চালু করা হয়েছে, যা রাশিয়ান বর্ণমালার সবচেয়ে সাধারণ অক্ষর শিখতে সাহায্য করে। এটি করার জন্য, শুধুমাত্র একটি শব্দ মনে রাখা যথেষ্ট - "হেলফ্ট"।

সাধারণ ক্ষেত্রে, শতাংশের পদে অক্ষর ব্যবহারের ফ্রিকোয়েন্সি সহজভাবে সেট করা হয়: বিশেষজ্ঞ গণনা করেন কতবার টেক্সটে অক্ষরটি আসে, তারপর ফলাফলের মানটিকে পাঠের মোট অক্ষর সংখ্যা দিয়ে ভাগ করে। এবং এই মানটিকে শতাংশ হিসাবে প্রকাশ করতে, এটিকে 100 দ্বারা গুণ করাই যথেষ্ট।

এটি বিবেচনা করা গুরুত্বপূর্ণ যে ফ্রিকোয়েন্সি কেবল পাঠ্যের আয়তনের উপর নয়, এর প্রকৃতির উপরও নির্ভর করবে। উদাহরণস্বরূপ, প্রযুক্তিগত উত্সগুলিতে "এফ" অক্ষরটি কথাসাহিত্যের চেয়ে অনেক বেশি দেখা যায়। অতএব, বস্তুনিষ্ঠ ফলাফলের জন্য, একজন বিশেষজ্ঞকে অবশ্যই গবেষণার জন্য বিভিন্ন প্রকৃতি এবং শৈলীর পাঠ্য টাইপ করতে হবে।

পাঠ্য ফ্রিকোয়েন্সি বিশ্লেষণ প্রোগ্রাম
পাঠ্য ফ্রিকোয়েন্সি বিশ্লেষণ প্রোগ্রাম

দ্বি-, ত্রি-, চার-গ্রাম

অর্থপূর্ণ পাঠ্যগুলিতে, আপনি সর্বাধিক সাধারণ (যথাক্রমে, সর্বাধিকপুনরাবৃত্তি) দুই বা ততোধিক অক্ষরের সংমিশ্রণ। বিশেষজ্ঞরা বেশ কয়েকটি সারণীও সংকলন করেছেন, যা বিভিন্ন বর্ণমালার অনুরূপ চিত্রের ফ্রিকোয়েন্সি নির্দেশ করে৷

রাশিয়ান হিসাবে, বিশাল অর্থপূর্ণ পাঠ্যের সিস্টেমের ফ্রিকোয়েন্সি বিশ্লেষণ সবচেয়ে সাধারণ বিগ্রাম এবং ট্রিগ্রামগুলি স্থাপন করা সম্ভব করেছে:

  • EN.
  • ST.
  • কিন্তু।
  • না।
  • চালু।
  • RA.
  • OV.
  • KO.
  • VO.
  • STO।
  • নতুন
  • ENO।
  • TOV।
  • OVA।
  • OVO।

পরস্পরের কাছে চিঠির পছন্দের সম্পর্ক

এবং এটি এমন সব সম্ভাবনা নয় যা পাঠ্য গবেষকদের ফ্রিকোয়েন্সি বিশ্লেষণ প্রদান করতে পারে। বিগগ্রাম এবং ট্রিগ্রামের অনুরূপ সারণী থেকে তথ্য পদ্ধতিগত করার মাধ্যমে, অক্ষরের সবচেয়ে সাধারণ সংমিশ্রণে ডেটা বের করা সম্ভব। অথবা, অন্য কথায়, একে অপরের সাথে তাদের পছন্দের সম্পর্ক।

এমন একটি বিস্তৃত গবেষণা ইতিমধ্যেই বিশেষজ্ঞরা করেছেন। এর ফলাফল ছিল একটি টেবিল যেখানে, বর্ণমালার প্রতিটি অক্ষর সহ, এর প্রতিবেশীদের নির্দেশ করা হয়েছিল। তদুপরি, সেই অক্ষরগুলি যা প্রায়শই এর আগে এবং পরে উভয়ই পাওয়া যায়। টেবিলের অক্ষরগুলি সুযোগ দ্বারা বানান করা হয় না। প্রতীকের কাছাকাছি, সর্বাধিক ঘন ঘন প্রতিবেশীদের নির্দেশ করা হয়েছে, আরও - আরও বিরল।

উদাহরণ বিবেচনা করুন:

  • অক্ষর "A"। নিম্নলিখিত পছন্দের সংযোগগুলি এখানে আলাদা করা হয়েছে: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m৷ এখান থেকে আমরা দেখতে পাই যে প্রায়শই পাঠ্যগুলিতে "A" এর আগে "H" ("NA") থাকে। এবং "A" এর পরে প্রায়শই রাশিয়ান পাঠ্যগুলিতে আমরা "L" এর সাথে দেখা করতে পারি("AL")।
  • অক্ষর "M"। বিশেষজ্ঞরা এই ধরনের পছন্দের সংযোগগুলি চিহ্নিত করেছেন: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s"
  • অক্ষর "খ"। পছন্দের সংযোগগুলি নিম্নরূপ: "n-s-t-l-b-n-k-v-p-s-e-o-i"।
  • অক্ষর "শ"। পছন্দের সংযোগ: "e-b-a-i-u-Sch-e-i-a"।
  • অক্ষর "P"। রাশিয়ান বর্ণমালার এই প্রতীকের সাথে পছন্দের সংযোগ: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l"।
সময়-ফ্রিকোয়েন্সি বিশ্লেষণ
সময়-ফ্রিকোয়েন্সি বিশ্লেষণ

বিশ্লেষণকে কী সংজ্ঞায়িত করে?

আধুনিক ফ্রিকোয়েন্সি টেক্সট অ্যানালাইসিস প্রোগ্রামগুলি প্রচুর পরিমাণে প্রবন্ধ, প্রবন্ধ, প্যাসেজ ইত্যাদি অধ্যয়ন করতে সাহায্য করে। নিম্নোক্ত তথ্যগুলো গবেষককে স্ট্যান্ডার্ড হিসেবে প্রদান করা হয়েছে:

  • টেক্সটে মোট অক্ষরের সংখ্যা।
  • লেখকের ব্যবহৃত স্থানের সংখ্যা।
  • অঙ্কের সংখ্যা।
  • ব্যবহৃত বিরাম চিহ্ন সম্পর্কে তথ্য - পিরিয়ড, কমা ইত্যাদি।
  • উপলব্ধ প্রতিটি বর্ণমালায় অক্ষরের সংখ্যা - সিরিলিক, ল্যাটিন, ইত্যাদি।
  • টেক্সটে প্রতিটি অক্ষর এবং প্রতীক ব্যবহারের ফ্রিকোয়েন্সি সম্পর্কে তথ্য - সমগ্র পাঠ্যের তুলনায় উল্লেখের সংখ্যা এবং শতাংশ।

অতিরিক্ত অপ্টিমাইজেশন এবং অত্যধিক স্যাচুরেশনের বিরুদ্ধে সংগ্রাম

টেক্সট ফ্রিকোয়েন্সি বিশ্লেষণ কেন করা হয়? এটা কি কেবল কৌতূহলের উদ্দেশ্যে - লিখিত পাঠ্যের কোন অক্ষরগুলি প্রায়শই সম্মুখীন হয়েছে তা প্রতিষ্ঠিত করার জন্য? না, বিশ্লেষণের মূল প্রয়োগটি ব্যবহারিক, এবং এটি অন্যত্র রয়েছে।

N-গ্রামে শুধু স্থিতিশীল বিগ্রাম এবং ট্রিগ্রামই অন্তর্ভুক্ত নয়। একই ভাবেবিভাগগুলির মধ্যে কীওয়ার্ড (ট্যাগ), কোলোকেশন অন্তর্ভুক্ত রয়েছে। অর্থাৎ, দুই বা ততোধিক শব্দ নিয়ে গঠিত স্থিতিশীল সমন্বয়। তারা এই সত্য দ্বারা আলাদা করা হয় যে এই ধরনের রচনাগুলি পাঠ্যে একসাথে ঘটে এবং একই সাথে একটি নির্দিষ্ট শব্দার্থিক বোঝা বহন করে।

এটি অসাধু SEO বিশেষজ্ঞদের হাতে চলে। তাদের কাজে, তারা কখনও কখনও একটি নির্দিষ্ট ওয়েব পৃষ্ঠার প্রাসঙ্গিকতা কৃত্রিমভাবে বাড়ানোর জন্য পাঠ্যে ট্যাগ এবং কীওয়ার্ডের পুনরাবৃত্তির অপব্যবহার করে। তারা এই জাতীয় "কৌশল" দিয়ে সিস্টেমটিকে প্রতারণা করার চেষ্টা করছে: শব্দের স্বাভাবিক সংমিশ্রণের সাথে একটি প্রাকৃতিক সংমিশ্রণকে, রাশিয়ান ভাষার জন্য ঐতিহ্যগত ("একটি মিঙ্ক কোট কিনুন") একটি অসঙ্গতিতে পরিণত করা। অর্থাৎ, এই জাতীয় প্রাকৃতিক এন-গ্রামে শব্দগুলি পুনর্বিন্যাস করে প্রাপ্ত ("একটি মিঙ্ক কোট কিনুন")।

কিন্তু আজ, সার্চ অ্যালগরিদমগুলি ওভারস্প্যাম-এর মতো কার্যকরীভাবে ওভারঅপ্টিমাইজেশন সনাক্ত করতে শিখেছে - কীওয়ার্ড, ট্যাগ যা অনুসন্ধান পৃষ্ঠায় ফলাফলের র‌্যাঙ্কিংকে প্রভাবিত করে। ওভার-অপ্টিমাইজ করা পৃষ্ঠাগুলি এখন, বিপরীতে, ব্যবহারকারীর ক্যোয়ারী দ্বারা নিম্ন র‌্যাঙ্ক করা হয়েছে। এবং লোকেরা নিজেরাই অর্থহীন, ট্যাগ টেক্সট সহ অত্যধিক স্যাচুরেটেড পড়ার প্রবণতা রাখে না, অন্য রিসোর্সে দরকারী তথ্য পছন্দ করে।

ফ্রিকোয়েন্সি বিশ্লেষণ পদ্ধতি
ফ্রিকোয়েন্সি বিশ্লেষণ পদ্ধতি

এসইও বিশেষজ্ঞদের ব্যক্তিগত বিশ্লেষণে সহায়তা করা

এইভাবে, আধুনিক সার্চ ইঞ্জিন টেক্সট ফিল্টারগুলি আজ সেই ইন্টারনেট পৃষ্ঠাগুলিকে অগ্রাধিকার দেয়, যেগুলির তথ্য শুধুমাত্র পড়া সহজ নয়, দর্শকদের জন্যও দরকারী৷ নতুন মান, এসইও বিশেষজ্ঞদের জন্য তাদের কাজ অপ্টিমাইজ করতেএবং পাঠ্যের ফ্রিকোয়েন্সি বিশ্লেষণে যান। অনেক জনপ্রিয় পরিষেবা আজ এটি প্রদান করে।

ফ্রিকোয়েন্সি বিশ্লেষণ তথ্যপূর্ণতার জন্য প্রকাশনার জন্য প্রস্তুত করা পাঠ্য পর্যালোচনা করতে সহায়তা করে। ট্যাগ এবং মূল বাক্যাংশের অপ্রয়োজনীয় অপ্রয়োজনীয়তা দূর করুন। এটি আপনাকে অনুসন্ধান ইঞ্জিনের পাঠ্য ফিল্টারগুলিতে সন্দেহ জাগায় এমন শব্দের অপ্রাকৃতিক সংমিশ্রণের প্রতি লেখকের দৃষ্টি আকর্ষণ করার অনুমতি দেয়৷

ফ্রিকোয়েন্সি প্রতিক্রিয়া বিশ্লেষণ
ফ্রিকোয়েন্সি প্রতিক্রিয়া বিশ্লেষণ

পাঠ্যের ফ্রিকোয়েন্সি বিশ্লেষণ এইভাবে উত্সে একটি নির্দিষ্ট অক্ষরের উল্লেখের ফ্রিকোয়েন্সি নির্ধারণ করতে সহায়তা করে। ট্যাগ সহ পাঠ্য ওভারলোড মূল্যায়ন করার জন্য পদ্ধতিটি আজ ব্যবহার করা হয়, শব্দের অপ্রাকৃতিক স্থানান্তর।

প্রস্তাবিত: