কর্পাস ভাষাতত্ত্ব কি?

সুচিপত্র:

কর্পাস ভাষাতত্ত্ব কি?
কর্পাস ভাষাতত্ত্ব কি?
Anonim

কয়েক দশক আগে, বিজ্ঞানীরা কেবল ভাষাগত গবেষণা স্বয়ংক্রিয় করার স্বপ্ন দেখতে পারতেন। কাজটি হাতে করা হয়েছিল, প্রচুর সংখ্যক ছাত্র এতে জড়িত ছিল, একটি "অমার্জিত" ত্রুটির একটি উল্লেখযোগ্য সম্ভাবনা ছিল, এবং সবচেয়ে গুরুত্বপূর্ণভাবে, এটি সবই অনেক, অনেক সময় নিয়েছে৷

কম্পিউটার প্রযুক্তির বিকাশের সাথে সাথে গবেষণা অনেক দ্রুত করা সম্ভব হয়েছে, এবং আজ ভাষা অধ্যয়নের একটি প্রতিশ্রুতিশীল ক্ষেত্র হল কর্পাস ভাষাতত্ত্ব। এর প্রধান বৈশিষ্ট্য হল প্রচুর পরিমাণে পাঠ্য তথ্যের ব্যবহার, একটি একক ডাটাবেসে একত্রিত করা, একটি বিশেষ উপায়ে চিহ্নিত করা এবং একটি কর্পাস বলা হয়৷

আজ, বিভিন্ন ভাষার উপাদানের উপর ভিত্তি করে বিভিন্ন উদ্দেশ্যে তৈরি করা হয়েছে অনেক সংস্থা, লক্ষ লক্ষ থেকে কোটি কোটি আভিধানিক একক। এই দিকটি প্রতিশ্রুতিশীল হিসাবে স্বীকৃত এবং প্রয়োগ এবং গবেষণা লক্ষ্য অর্জনে উল্লেখযোগ্য অগ্রগতি প্রদর্শন করে। পেশাদার, এক উপায় বা অন্য সঙ্গে ডিলপ্রাকৃতিক ভাষা, এটি সুপারিশ করা হয় যে আপনি অন্তত একটি মৌলিক স্তরে টেক্সট কর্পোরার সাথে নিজেকে পরিচিত করুন৷

কর্পাস ভাষাতত্ত্বের ইতিহাস

এই দিকের গঠন গত শতাব্দীর 60 এর দশকের গোড়ার দিকে মার্কিন যুক্তরাষ্ট্রে ব্রাউন কর্পস তৈরির সাথে যুক্ত। পাঠ্যের সংগ্রহে মাত্র 1 মিলিয়ন শব্দ ফর্ম ছিল, এবং আজ এই ধরনের আয়তনের একটি সংস্থা সম্পূর্ণরূপে অপ্রতিদ্বন্দ্বী হবে। এটি মূলত কম্পিউটার প্রযুক্তির বিকাশের গতি, সেইসাথে নতুন গবেষণা সংস্থানের ক্রমবর্ধমান চাহিদার কারণে।

90-এর দশকে, কর্পাস ভাষাতত্ত্ব একটি পূর্ণাঙ্গ এবং স্বাধীন শৃঙ্খলায় গঠিত হয়েছিল, পাঠ্যের সংগ্রহগুলি সংকলিত হয়েছিল এবং কয়েক ডজন ভাষার জন্য চিহ্নিত করা হয়েছিল। এই সময়ের মধ্যে, উদাহরণস্বরূপ, 100 মিলিয়ন শব্দ ব্যবহারের জন্য ব্রিটিশ ন্যাশনাল কর্পাস তৈরি করা হয়েছিল৷

কর্পাস ভাষাতত্ত্ব
কর্পাস ভাষাতত্ত্ব

ভাষাবিজ্ঞানের এই দিকটি বিকশিত হওয়ার সাথে সাথে পাঠ্যের আয়তন বৃহত্তর হয়ে ওঠে (এবং কোটি কোটি শব্দভান্ডারের এককে পৌঁছে) এবং মার্কআপ আরও বেশি বৈচিত্র্যময় হয়ে ওঠে। আজ, ইন্টারনেট স্পেসে, আপনি লিখিত এবং মৌখিক বক্তৃতা, বহুভাষিক এবং শিক্ষামূলক, কথাসাহিত্য বা একাডেমিক সাহিত্যের উপর দৃষ্টি নিবদ্ধ করে, সেইসাথে অন্যান্য অনেক বৈচিত্র্য খুঁজে পেতে পারেন৷

কী কেস আছে

কর্পাস ভাষাতত্ত্বে কর্পাস প্রকারগুলিকে বিভিন্ন উপায়ে উপস্থাপন করা যেতে পারে। এটি স্বজ্ঞাতভাবে স্পষ্ট যে শ্রেণিবিন্যাসের ভিত্তি হতে পারে পাঠ্যের ভাষা (রাশিয়ান, জার্মান), অ্যাক্সেস মোড (ওপেন সোর্স, ক্লোজড সোর্স, বাণিজ্যিক), উত্স উপাদানের ধরণ (কল্পনা)সাহিত্য, তথ্যচিত্র, একাডেমিক, সাংবাদিকতা)।

কর্পাস ভাষাবিজ্ঞানের পদ্ধতি
কর্পাস ভাষাবিজ্ঞানের পদ্ধতি

একটি আকর্ষণীয় উপায়ে, মৌখিক বক্তৃতা প্রতিনিধিত্বকারী উপাদানের প্রজন্ম সঞ্চালিত হয়। যেহেতু এই ধরনের বক্তৃতার ইচ্ছাকৃত রেকর্ডিং উত্তরদাতাদের জন্য কৃত্রিম পরিস্থিতি তৈরি করবে, এবং এর ফলে উপাদানটিকে "স্বতঃস্ফূর্ত" বলা যাবে না, তাই আধুনিক কর্পাস ভাষাবিজ্ঞান অন্য পথে চলে গেছে। স্বেচ্ছাসেবক একটি মাইক্রোফোন দিয়ে সজ্জিত, এবং দিনের বেলায় যে সমস্ত কথোপকথন তিনি অংশগ্রহণ করেন তা রেকর্ড করা হয়। আশেপাশের লোকেরা অবশ্য জানতে পারে না যে প্রতিদিনের কথোপকথনে তারা বিজ্ঞানের বিকাশে অবদান রাখছে।

পরে, প্রাপ্ত অডিও রেকর্ডিংগুলি ডেটা ব্যাঙ্কে সংরক্ষণ করা হয় এবং একটি প্রতিলিপির মতো মুদ্রিত পাঠ্যের সাথে থাকে। এইভাবে, প্রতিদিনের কথ্য বক্তৃতার একটি সংগ্রহ তৈরি করার জন্য প্রয়োজনীয় মার্কআপ করা সম্ভব হয়৷

আবেদন

যেখানে ভাষা ব্যবহার করা সম্ভব, সেখানে টেক্সট কর্পোরা ব্যবহার করাও সম্ভব। ভাষাবিজ্ঞানে কর্পাস পদ্ধতি ব্যবহার করার উদ্দেশ্য হতে পারে:

  • সেন্টিমেন্ট প্রোগ্রাম তৈরি করা যা রাজনীতি এবং ব্যবসায় ব্যাপকভাবে ব্যবহৃত হয় যথাক্রমে ভোটার এবং গ্রাহকদের কাছ থেকে ইতিবাচক এবং নেতিবাচক প্রতিক্রিয়া ট্র্যাক করতে।
  • অভিধান এবং অনুবাদকদের কর্মক্ষমতা উন্নত করতে তথ্য সিস্টেমের সাথে সংযোগ করা।
  • বিভিন্ন গবেষণা কাজ যা ভাষার গঠন, এর বিকাশের ইতিহাস এবং অদূর ভবিষ্যতে এর পরিবর্তনের পূর্বাভাস বোঝার ক্ষেত্রে অবদান রাখে।
  • রূপগত উপর ভিত্তি করে তথ্য নিষ্কাশন সিস্টেমের উন্নয়ন,সিনট্যাকটিক, শব্দার্থিক এবং অন্যান্য বৈশিষ্ট্য।
  • বিভিন্ন ভাষাগত সিস্টেমের কাজের অপ্টিমাইজেশন, ইত্যাদি।

শেলস ব্যবহার করা

রিসোর্স ইন্টারফেসটি একটি সাধারণ সার্চ ইঞ্জিনের মতো এবং ব্যবহারকারীকে ইনফোবেস অনুসন্ধান করতে কিছু শব্দ বা শব্দের সংমিশ্রণ প্রবেশ করতে অনুরোধ করে। সঠিক অনুরোধ ফর্ম ছাড়াও, আপনি বর্ধিত সংস্করণ ব্যবহার করতে পারেন, যা আপনাকে প্রায় যেকোনো ভাষাগত মানদণ্ডের মাধ্যমে পাঠ্য তথ্য খুঁজে পেতে দেয়।

কম্পিউটার এবং কর্পাস ভাষাবিজ্ঞান
কম্পিউটার এবং কর্পাস ভাষাবিজ্ঞান

অনুসন্ধানের ভিত্তি হতে পারে:

  • বক্তব্যের একটি নির্দিষ্ট গোষ্ঠীর অংশ;
  • ব্যাকরণগত বৈশিষ্ট্য;
  • অর্থতত্ত্ব;
  • শৈলীগত এবং আবেগময় রঙ।

এছাড়া, আপনি শব্দের ক্রমানুসারের জন্য অনুসন্ধানের মানদণ্ড একত্রিত করতে পারেন: উদাহরণস্বরূপ, বর্তমান কাল, প্রথম ব্যক্তি, একবচন এবং অভিযুক্ত ক্ষেত্রে একটি বিশেষ্য দ্বারা অনুসৃত একটি ক্রিয়াপদের সমস্ত উপস্থিতি খুঁজুন. এই ধরনের একটি সহজ কাজ সমাধান করতে ব্যবহারকারীর কয়েক সেকেন্ড সময় লাগে এবং প্রদত্ত ক্ষেত্রগুলিতে শুধুমাত্র কয়েকটি মাউস ক্লিকের প্রয়োজন হয়৷

সৃষ্টি প্রক্রিয়া

একটি নির্দিষ্ট লক্ষ্য অর্জনের সময় প্রয়োজনের উপর নির্ভর করে অনুসন্ধানটি নিজেই সমস্ত সাবকর্পাসে এবং একটিতে, বিশেষভাবে নির্বাচিত উভয় ক্ষেত্রেই করা যেতে পারে:

  1. সর্বপ্রথম, এটি নির্ধারণ করা হয় কোন পাঠ্যগুলি কর্পাসের ভিত্তি তৈরি করবে। ব্যবহারিক উদ্দেশ্যে, সাংবাদিকতা, সংবাদপত্রের উপকরণ, ইন্টারনেট মন্তব্য প্রায়ই ব্যবহৃত হয়। গবেষণা প্রকল্পে, সবচেয়েবিভিন্ন ধরণের কর্পোরা, তবে পাঠ্যগুলি অবশ্যই কিছু সাধারণ ভিত্তিতে নির্বাচন করতে হবে৷
  2. পাঠ্যের ফলস্বরূপ সেটটি প্রি-প্রসেস করা হয়, ত্রুটিগুলি সংশোধন করা হয়, যদি থাকে, পাঠ্যের একটি গ্রন্থপঞ্জী এবং বহির্ভাষাগত বিবরণ প্রস্তুত করা হয়।
  3. সমস্ত নন-টেক্সচুয়াল তথ্য ফিল্টার করা হয়েছে: গ্রাফিক্স, ছবি, টেবিল মুছে ফেলা হয়েছে।
  4. টোকেনগুলি, সাধারণত শব্দগুলি, আরও প্রক্রিয়াকরণের জন্য বরাদ্দ করা হয়৷
  5. অবশেষে, রূপগত, সিনট্যাকটিক এবং অন্যান্য উপাদানের ফলের সেটের মার্কআপ করা হয়।

সমস্ত সঞ্চালিত ক্রিয়াকলাপের ফলাফল হল একটি সিনট্যাকটিক কাঠামো যার উপরে উপাদানগুলির একটি সেট বিতরণ করা হয়, যার প্রতিটির জন্য বক্তৃতার একটি অংশ, ব্যাকরণগত এবং কিছু ক্ষেত্রে, শব্দার্থিক বৈশিষ্ট্যগুলি সংজ্ঞায়িত করা হয়৷

কেস তৈরিতে অসুবিধা

এটা বোঝা গুরুত্বপূর্ণ যে একটি করপাস পেতে, অনেক শব্দ বা বাক্য একসাথে করা যথেষ্ট নয়। একদিকে, পাঠ্যের একটি সংগ্রহ অবশ্যই ভারসাম্যপূর্ণ হতে হবে, অর্থাৎ নির্দিষ্ট অনুপাতে বিভিন্ন ধরণের পাঠ্য উপস্থাপন করতে হবে। অন্যদিকে, মামলার বিষয়বস্তু একটি বিশেষ উপায়ে চিহ্নিত করা আবশ্যক।

জাখারভ কর্পাস ভাষাতত্ত্ব
জাখারভ কর্পাস ভাষাতত্ত্ব

প্রথম সমস্যাটি চুক্তির মাধ্যমে সমাধান করা হয়েছে: উদাহরণস্বরূপ, সংগ্রহে ৬০% কথাসাহিত্যের পাঠ্য, ২০% ডকুমেন্টারি, মৌখিক বক্তৃতা, আইন প্রণয়ন, বৈজ্ঞানিক কাগজপত্র ইত্যাদির লিখিত উপস্থাপনাকে একটি নির্দিষ্ট অনুপাত দেওয়া হয়। ভারসাম্যপূর্ণ কার্পাসের জন্য আদর্শ রেসিপি আজ বিদ্যমান নেই।

কন্টেন্ট মার্কআপ সংক্রান্ত দ্বিতীয় প্রশ্নটি সমাধান করা আরও কঠিন। পাঠ্যের স্বয়ংক্রিয় মার্কআপের জন্য বিশেষ প্রোগ্রাম এবং অ্যালগরিদম ব্যবহার করা হয়, তবে তারা 100% ফলাফল দেয় না, ব্যর্থতার কারণ হতে পারে এবং ম্যানুয়াল পরিমার্জন প্রয়োজন। এই সমস্যা সমাধানের সুযোগ এবং সমস্যাগুলি কর্পাস ভাষাতত্ত্বের উপর ভিপি জাখারভের কাজে বিশদভাবে বর্ণনা করা হয়েছে৷

টেক্সট মার্কআপ বিভিন্ন স্তরে করা হয়, যা আমরা নীচে তালিকাভুক্ত করব৷

মর্ফোলজিক্যাল মার্কআপ

স্কুল বেঞ্চ থেকে, আমরা মনে করি যে রাশিয়ান ভাষায় বক্তৃতার বিভিন্ন অংশ রয়েছে এবং তাদের প্রত্যেকটির নিজস্ব বৈশিষ্ট্য রয়েছে। উদাহরণস্বরূপ, একটি ক্রিয়াপদে মেজাজ এবং কালের বিভাগ রয়েছে যা একটি বিশেষ্যের নেই। একজন নেটিভ স্পিকার বিশেষ্য প্রত্যাখ্যান করে এবং বিনা দ্বিধায় ক্রিয়াগুলিকে সংযুক্ত করে, কিন্তু 100 মিলিয়ন শব্দ ব্যবহারের একটি কর্পাস চিহ্নিত করার জন্য কায়িক শ্রম উপযুক্ত নয়। সমস্ত প্রয়োজনীয় অপারেশন একটি কম্পিউটার দ্বারা সঞ্চালিত করা যেতে পারে, তবে এর জন্য এটি শেখানো প্রয়োজন৷

কম্পিউটারের জন্য প্রতিটি শব্দকে বক্তৃতার কিছু অংশ হিসাবে "বোঝার" জন্য রূপতাত্ত্বিক মার্কআপ প্রয়োজন যাতে নির্দিষ্ট ব্যাকরণগত বৈশিষ্ট্য রয়েছে। যেহেতু অনেকগুলি নিয়মিত নিয়ম রাশিয়ান ভাষায় কাজ করে (অন্য যে কোনও ভাষায়) তাই মেশিনে বেশ কয়েকটি অ্যালগরিদম রেখে রূপগত বিশ্লেষণের জন্য একটি স্বয়ংক্রিয় পদ্ধতি তৈরি করা সম্ভব। যাইহোক, নিয়মের ব্যতিক্রম রয়েছে, পাশাপাশি বিভিন্ন জটিল কারণ রয়েছে। ফলস্বরূপ, বিশুদ্ধ কম্পিউটার বিশ্লেষণ আজ আদর্শ থেকে অনেক দূরে, এবং এমনকি 4% ত্রুটি 100 মিলিয়ন ইউনিটের একটি কর্পাসে 4 মিলিয়ন শব্দের মান দেয়, যার জন্য ম্যানুয়াল পরিমার্জন প্রয়োজন৷

এই সমস্যাটি ভিপি জাখারভের বই "কর্পাস লিঙ্গুইস্টিকস" দ্বারা বিশদভাবে বর্ণিত হয়েছে।

সিনট্যাকটিক মার্কআপ

সিনট্যাকটিক বিশ্লেষণ বা পার্সিং একটি পদ্ধতি যা একটি বাক্যে শব্দের সম্পর্ক নির্ধারণ করে। অ্যালগরিদমের একটি সেটের সাহায্যে, পাঠ্যের বিষয়বস্তু, পূর্বনির্ধারণ, সংযোজন এবং বক্তব্যের বিভিন্ন বাঁক নির্ধারণ করা সম্ভব হয়। অনুক্রমের কোন শব্দগুলি প্রধান এবং কোনটি নির্ভরশীল তা নির্ধারণ করে, আমরা দক্ষতার সাথে পাঠ্য থেকে তথ্য আহরণ করতে পারি এবং একটি অনুসন্ধান অনুরোধের প্রতিক্রিয়ায় আমরা আগ্রহী এমন তথ্যগুলি ফেরত দেওয়ার জন্য মেশিনকে প্রশিক্ষণ দিতে পারি৷

রাশিয়ান বিশ্ববিদ্যালয়ে কর্পাস ভাষাবিজ্ঞানের পরীক্ষাগার
রাশিয়ান বিশ্ববিদ্যালয়ে কর্পাস ভাষাবিজ্ঞানের পরীক্ষাগার

যাইহোক, আধুনিক সার্চ ইঞ্জিনগুলি প্রাসঙ্গিক প্রশ্নের উত্তরে লম্বা পাঠ্যের পরিবর্তে নির্দিষ্ট নম্বর দেওয়ার জন্য এটি ব্যবহার করে: "একটি আপেলে কত ক্যালরি আছে" বা "মস্কো থেকে সেন্ট পিটার্সবার্গের দূরত্ব"। যাইহোক, এমনকি বর্ণিত প্রক্রিয়াটির মৌলিক বিষয়গুলি বুঝতে, আপনাকে "কর্পাস ভাষাবিদ্যার ভূমিকা" বা অন্য একটি মৌলিক পাঠ্যপুস্তকের সাথে নিজেকে পরিচিত করতে হবে৷

অর্থবোধক মার্কআপ

একটি শব্দের শব্দার্থ, সহজ ভাষায়, এর অর্থ। শব্দার্থগত বিশ্লেষণে একটি ব্যাপকভাবে প্রযোজ্য পদ্ধতি হল একটি শব্দের ট্যাগগুলিকে অ্যাট্রিবিউশন করা, যা শব্দার্থগত বিভাগ এবং উপশ্রেণির একটি সেটের অন্তর্গত প্রতিফলিত করে। টেক্সট সেন্টিমেন্ট অ্যানালাইসিস অ্যালগরিদম, স্বয়ংক্রিয় রেফারেন্সিং এবং কর্পাস ভাষাবিদ্যা পদ্ধতি ব্যবহার করে অন্যান্য কাজ সম্পাদনের জন্য এই ধরনের তথ্য মূল্যবান।

গাছের বেশ কিছু "শিকড়" আছে, যেগুলো বিমূর্ত শব্দখুব বিস্তৃত শব্দার্থবিদ্যা। এই গাছের শাখার সাথে সাথে নোডগুলি আরও বেশি নির্দিষ্ট আভিধানিক উপাদান ধারণ করে গঠিত হয়। উদাহরণস্বরূপ, "প্রাণী" শব্দটি "মানুষ" এবং "প্রাণী" এর মতো ধারণার সাথে যুক্ত হতে পারে। প্রথম শব্দটি বিভিন্ন পেশা, আত্মীয়তার শর্তাবলী, জাতীয়তা এবং দ্বিতীয়টি - শ্রেণী এবং প্রাণীর প্রকারে শাখা হতে থাকবে৷

তথ্য পুনরুদ্ধার ব্যবস্থার ব্যবহার

কর্পাস ভাষাবিজ্ঞানের ব্যবহারের ক্ষেত্রগুলি বিভিন্ন ধরণের কার্যকলাপের ক্ষেত্রগুলিকে কভার করে। কর্পোরা অভিধান সংকলন এবং সংশোধন, স্বয়ংক্রিয় অনুবাদ সিস্টেম তৈরি, সংক্ষিপ্তকরণ, তথ্য আহরণ, অনুভূতি নির্ধারণ এবং অন্যান্য পাঠ্য প্রক্রিয়াকরণের জন্য ব্যবহৃত হয়।

কর্পাস ভাষাতত্ত্ব কর্পাস প্রকার
কর্পাস ভাষাতত্ত্ব কর্পাস প্রকার

উপরন্তু, এই জাতীয় সংস্থানগুলি সক্রিয়ভাবে বিশ্বের ভাষাগুলির অধ্যয়ন এবং সামগ্রিকভাবে ভাষার কার্যকারিতার প্রক্রিয়াগুলিতে ব্যবহৃত হয়। প্রচুর পরিমাণে প্রাক-প্রস্তুত তথ্যের অ্যাক্সেস ভাষার বিকাশের প্রবণতাগুলির দ্রুত এবং ব্যাপক অধ্যয়নে অবদান রাখে, নিওলজিজম গঠন এবং স্থিতিশীল বক্তৃতা বাঁক, আভিধানিক এককগুলির অর্থের পরিবর্তন ইত্যাদি।

যেহেতু এত বিপুল পরিমাণ ডেটা নিয়ে কাজ করার জন্য অটোমেশন প্রয়োজন, আজ কম্পিউটার এবং কর্পাস ভাষাবিদ্যার মধ্যে একটি ঘনিষ্ঠ মিথস্ক্রিয়া রয়েছে৷

রাশিয়ান ভাষার জাতীয় কর্পাস

এই কর্পাস (সংক্ষেপে NKRC নামে) অনেকগুলি উপকর্পাস অন্তর্ভুক্ত করে যেগুলি বিভিন্ন ধরণের কাজ সমাধান করার জন্য সংস্থান ব্যবহার করার অনুমতি দেয়৷

এনসিআরএ ডাটাবেসের উপাদানগুলিকে ভাগ করা হয়েছে:

  • 90 এবং 2000 এর দশকের মিডিয়াতে প্রকাশনাবছর, দেশী এবং বিদেশী উভয়ই;
  • মৌখিক বক্তৃতার রেকর্ডিং;
  • উচ্চারণগতভাবে চিহ্নিত পাঠ্য (যেমন উচ্চারণ চিহ্ন সহ);
  • উপভাষা;
  • কাব্যিক কাজ;
  • সিনট্যাকটিক মার্কআপ সহ উপকরণ ইত্যাদি।

ইনফরমেশন সিস্টেমে রাশিয়ান থেকে ইংরেজি, জার্মান, ফ্রেঞ্চ এবং অন্যান্য অনেক ভাষায় (এবং এর বিপরীতে) কাজের সমান্তরাল অনুবাদ সহ সাবকর্পাসও রয়েছে।

এছাড়াও, ডাটাবেসে ঐতিহাসিক গ্রন্থের একটি অংশ রয়েছে যা এর বিকাশের বিভিন্ন সময়কালে রাশিয়ান ভাষায় লিখিত বক্তৃতা উপস্থাপন করে। এছাড়াও একটি প্রশিক্ষণ সংস্থা রয়েছে যা রাশিয়ান ভাষা আয়ত্ত করার জন্য বিদেশী নাগরিকদের জন্য উপযোগী হতে পারে৷

রাশিয়ান ভাষার জাতীয় কর্পাসে ৪০০ মিলিয়ন আভিধানিক একক রয়েছে এবং অনেক দিক দিয়ে ইউরোপীয় ভাষার কর্পোরার একটি উল্লেখযোগ্য অংশের চেয়ে এগিয়ে রয়েছে।

সম্ভাবনা

এই ক্ষেত্রটিকে প্রতিশ্রুতিশীল হিসাবে স্বীকৃতি দেওয়ার পক্ষে একটি সত্য হল রাশিয়ান বিশ্ববিদ্যালয়গুলির পাশাপাশি বিদেশী বিশ্ববিদ্যালয়গুলিতে কর্পাস ভাষাবিজ্ঞান গবেষণাগারের উপস্থিতি৷ বিবেচিত তথ্য পুনরুদ্ধার সংস্থানগুলির কাঠামোর মধ্যে ব্যবহার এবং গবেষণার সাথে, উচ্চ প্রযুক্তির ক্ষেত্রে কিছু ক্ষেত্রের উন্নয়ন, প্রশ্ন-উত্তর ব্যবস্থা জড়িত, তবে এটি উপরে আলোচনা করা হয়েছে৷

কর্পাস ভাষাবিজ্ঞানের ইতিহাস
কর্পাস ভাষাবিজ্ঞানের ইতিহাস

নতুন অ্যালগরিদম প্রবর্তনের পরিপ্রেক্ষিতে প্রযুক্তিগত থেকে সমস্ত স্তরে কর্পাস ভাষাবিজ্ঞানের আরও বিকাশের পূর্বাভাস দেওয়া হয়েছে যা তথ্য অনুসন্ধান এবং প্রক্রিয়াকরণের প্রক্রিয়াগুলিকে অনুকূল করে তোলে, কম্পিউটারের সক্ষমতা প্রসারিত করে, অপারেশনাল বৃদ্ধি করেমেমরি, এবং গৃহস্থালীর সাথে শেষ হয়, কারণ ব্যবহারকারীরা দৈনন্দিন জীবনে এবং কর্মক্ষেত্রে এই ধরনের সম্পদ ব্যবহার করার জন্য আরও বেশি সংখ্যক উপায় খুঁজে পায়৷

উপসংহারে

গত শতাব্দীর মাঝামাঝি, 2017 একটি দূরবর্তী ভবিষ্যতের মতো মনে হয়েছিল, যেখানে মহাকাশযান মহাবিশ্বের বিস্তৃতি সার্ফ করে এবং রোবটগুলি মানুষের জন্য সমস্ত কাজ করে। বাস্তবে, যাইহোক, বিজ্ঞান "ফাঁকা দাগ" দিয়ে পরিপূর্ণ এবং বহু শতাব্দী ধরে মানবজাতিকে সমস্যায় ফেলেছে এমন প্রশ্নের উত্তর দেওয়ার জন্য মরিয়া চেষ্টা করছে। ভাষার কার্যকারিতা সংক্রান্ত প্রশ্নগুলি এখানে স্থান করে নেয়, এবং কর্পাস এবং গণনামূলক ভাষাবিজ্ঞান আমাদের তাদের উত্তর দিতে সাহায্য করতে পারে৷

বড় পরিমাণ ডেটা প্রক্রিয়াকরণ আপনাকে এমন প্যাটার্নগুলি সনাক্ত করতে দেয় যা আগে অ্যাক্সেসযোগ্য ছিল না, নির্দিষ্ট ভাষার বৈশিষ্ট্যগুলির বিকাশের পূর্বাভাস দিতে, প্রায় রিয়েল টাইমে শব্দের গঠন ট্র্যাক করতে দেয়৷

ব্যবহারিক বৈশ্বিক স্তরে, কর্পোরাকে বিবেচনা করা যেতে পারে, উদাহরণস্বরূপ, জনসাধারণের অনুভূতি মূল্যায়নের একটি সম্ভাব্য হাতিয়ার হিসাবে - ইন্টারনেট হল বাস্তব ব্যবহারকারীদের দ্বারা তৈরি বিভিন্ন পাঠ্যের একটি ক্রমাগত আপডেট করা ডেটাবেস: এগুলি হল মন্তব্য, পর্যালোচনা, নিবন্ধ, এবং অন্যান্য অনেক ধরনের বক্তৃতা।

এছাড়া, কর্পোরার সাথে কাজ করা একই প্রযুক্তিগত উপায়গুলির বিকাশে অবদান রাখে যা তথ্য পুনরুদ্ধারের সাথে জড়িত, যা আমাদের কাছে Google বা ইয়ানডেক্স পরিষেবা, মেশিন অনুবাদ, ইলেকট্রনিক অভিধান থেকে পরিচিত৷

এটা বলা নিরাপদ যে কর্পাস ভাষাবিজ্ঞান শুধুমাত্র তার প্রথম পদক্ষেপ করছে এবং অদূর ভবিষ্যতে দ্রুত বিকাশ ঘটবে৷

প্রস্তাবিত: