কয়েক দশক আগে, বিজ্ঞানীরা কেবল ভাষাগত গবেষণা স্বয়ংক্রিয় করার স্বপ্ন দেখতে পারতেন। কাজটি হাতে করা হয়েছিল, প্রচুর সংখ্যক ছাত্র এতে জড়িত ছিল, একটি "অমার্জিত" ত্রুটির একটি উল্লেখযোগ্য সম্ভাবনা ছিল, এবং সবচেয়ে গুরুত্বপূর্ণভাবে, এটি সবই অনেক, অনেক সময় নিয়েছে৷
কম্পিউটার প্রযুক্তির বিকাশের সাথে সাথে গবেষণা অনেক দ্রুত করা সম্ভব হয়েছে, এবং আজ ভাষা অধ্যয়নের একটি প্রতিশ্রুতিশীল ক্ষেত্র হল কর্পাস ভাষাতত্ত্ব। এর প্রধান বৈশিষ্ট্য হল প্রচুর পরিমাণে পাঠ্য তথ্যের ব্যবহার, একটি একক ডাটাবেসে একত্রিত করা, একটি বিশেষ উপায়ে চিহ্নিত করা এবং একটি কর্পাস বলা হয়৷
আজ, বিভিন্ন ভাষার উপাদানের উপর ভিত্তি করে বিভিন্ন উদ্দেশ্যে তৈরি করা হয়েছে অনেক সংস্থা, লক্ষ লক্ষ থেকে কোটি কোটি আভিধানিক একক। এই দিকটি প্রতিশ্রুতিশীল হিসাবে স্বীকৃত এবং প্রয়োগ এবং গবেষণা লক্ষ্য অর্জনে উল্লেখযোগ্য অগ্রগতি প্রদর্শন করে। পেশাদার, এক উপায় বা অন্য সঙ্গে ডিলপ্রাকৃতিক ভাষা, এটি সুপারিশ করা হয় যে আপনি অন্তত একটি মৌলিক স্তরে টেক্সট কর্পোরার সাথে নিজেকে পরিচিত করুন৷
কর্পাস ভাষাতত্ত্বের ইতিহাস
এই দিকের গঠন গত শতাব্দীর 60 এর দশকের গোড়ার দিকে মার্কিন যুক্তরাষ্ট্রে ব্রাউন কর্পস তৈরির সাথে যুক্ত। পাঠ্যের সংগ্রহে মাত্র 1 মিলিয়ন শব্দ ফর্ম ছিল, এবং আজ এই ধরনের আয়তনের একটি সংস্থা সম্পূর্ণরূপে অপ্রতিদ্বন্দ্বী হবে। এটি মূলত কম্পিউটার প্রযুক্তির বিকাশের গতি, সেইসাথে নতুন গবেষণা সংস্থানের ক্রমবর্ধমান চাহিদার কারণে।
90-এর দশকে, কর্পাস ভাষাতত্ত্ব একটি পূর্ণাঙ্গ এবং স্বাধীন শৃঙ্খলায় গঠিত হয়েছিল, পাঠ্যের সংগ্রহগুলি সংকলিত হয়েছিল এবং কয়েক ডজন ভাষার জন্য চিহ্নিত করা হয়েছিল। এই সময়ের মধ্যে, উদাহরণস্বরূপ, 100 মিলিয়ন শব্দ ব্যবহারের জন্য ব্রিটিশ ন্যাশনাল কর্পাস তৈরি করা হয়েছিল৷
ভাষাবিজ্ঞানের এই দিকটি বিকশিত হওয়ার সাথে সাথে পাঠ্যের আয়তন বৃহত্তর হয়ে ওঠে (এবং কোটি কোটি শব্দভান্ডারের এককে পৌঁছে) এবং মার্কআপ আরও বেশি বৈচিত্র্যময় হয়ে ওঠে। আজ, ইন্টারনেট স্পেসে, আপনি লিখিত এবং মৌখিক বক্তৃতা, বহুভাষিক এবং শিক্ষামূলক, কথাসাহিত্য বা একাডেমিক সাহিত্যের উপর দৃষ্টি নিবদ্ধ করে, সেইসাথে অন্যান্য অনেক বৈচিত্র্য খুঁজে পেতে পারেন৷
কী কেস আছে
কর্পাস ভাষাতত্ত্বে কর্পাস প্রকারগুলিকে বিভিন্ন উপায়ে উপস্থাপন করা যেতে পারে। এটি স্বজ্ঞাতভাবে স্পষ্ট যে শ্রেণিবিন্যাসের ভিত্তি হতে পারে পাঠ্যের ভাষা (রাশিয়ান, জার্মান), অ্যাক্সেস মোড (ওপেন সোর্স, ক্লোজড সোর্স, বাণিজ্যিক), উত্স উপাদানের ধরণ (কল্পনা)সাহিত্য, তথ্যচিত্র, একাডেমিক, সাংবাদিকতা)।
একটি আকর্ষণীয় উপায়ে, মৌখিক বক্তৃতা প্রতিনিধিত্বকারী উপাদানের প্রজন্ম সঞ্চালিত হয়। যেহেতু এই ধরনের বক্তৃতার ইচ্ছাকৃত রেকর্ডিং উত্তরদাতাদের জন্য কৃত্রিম পরিস্থিতি তৈরি করবে, এবং এর ফলে উপাদানটিকে "স্বতঃস্ফূর্ত" বলা যাবে না, তাই আধুনিক কর্পাস ভাষাবিজ্ঞান অন্য পথে চলে গেছে। স্বেচ্ছাসেবক একটি মাইক্রোফোন দিয়ে সজ্জিত, এবং দিনের বেলায় যে সমস্ত কথোপকথন তিনি অংশগ্রহণ করেন তা রেকর্ড করা হয়। আশেপাশের লোকেরা অবশ্য জানতে পারে না যে প্রতিদিনের কথোপকথনে তারা বিজ্ঞানের বিকাশে অবদান রাখছে।
পরে, প্রাপ্ত অডিও রেকর্ডিংগুলি ডেটা ব্যাঙ্কে সংরক্ষণ করা হয় এবং একটি প্রতিলিপির মতো মুদ্রিত পাঠ্যের সাথে থাকে। এইভাবে, প্রতিদিনের কথ্য বক্তৃতার একটি সংগ্রহ তৈরি করার জন্য প্রয়োজনীয় মার্কআপ করা সম্ভব হয়৷
আবেদন
যেখানে ভাষা ব্যবহার করা সম্ভব, সেখানে টেক্সট কর্পোরা ব্যবহার করাও সম্ভব। ভাষাবিজ্ঞানে কর্পাস পদ্ধতি ব্যবহার করার উদ্দেশ্য হতে পারে:
- সেন্টিমেন্ট প্রোগ্রাম তৈরি করা যা রাজনীতি এবং ব্যবসায় ব্যাপকভাবে ব্যবহৃত হয় যথাক্রমে ভোটার এবং গ্রাহকদের কাছ থেকে ইতিবাচক এবং নেতিবাচক প্রতিক্রিয়া ট্র্যাক করতে।
- অভিধান এবং অনুবাদকদের কর্মক্ষমতা উন্নত করতে তথ্য সিস্টেমের সাথে সংযোগ করা।
- বিভিন্ন গবেষণা কাজ যা ভাষার গঠন, এর বিকাশের ইতিহাস এবং অদূর ভবিষ্যতে এর পরিবর্তনের পূর্বাভাস বোঝার ক্ষেত্রে অবদান রাখে।
- রূপগত উপর ভিত্তি করে তথ্য নিষ্কাশন সিস্টেমের উন্নয়ন,সিনট্যাকটিক, শব্দার্থিক এবং অন্যান্য বৈশিষ্ট্য।
- বিভিন্ন ভাষাগত সিস্টেমের কাজের অপ্টিমাইজেশন, ইত্যাদি।
শেলস ব্যবহার করা
রিসোর্স ইন্টারফেসটি একটি সাধারণ সার্চ ইঞ্জিনের মতো এবং ব্যবহারকারীকে ইনফোবেস অনুসন্ধান করতে কিছু শব্দ বা শব্দের সংমিশ্রণ প্রবেশ করতে অনুরোধ করে। সঠিক অনুরোধ ফর্ম ছাড়াও, আপনি বর্ধিত সংস্করণ ব্যবহার করতে পারেন, যা আপনাকে প্রায় যেকোনো ভাষাগত মানদণ্ডের মাধ্যমে পাঠ্য তথ্য খুঁজে পেতে দেয়।
অনুসন্ধানের ভিত্তি হতে পারে:
- বক্তব্যের একটি নির্দিষ্ট গোষ্ঠীর অংশ;
- ব্যাকরণগত বৈশিষ্ট্য;
- অর্থতত্ত্ব;
- শৈলীগত এবং আবেগময় রঙ।
এছাড়া, আপনি শব্দের ক্রমানুসারের জন্য অনুসন্ধানের মানদণ্ড একত্রিত করতে পারেন: উদাহরণস্বরূপ, বর্তমান কাল, প্রথম ব্যক্তি, একবচন এবং অভিযুক্ত ক্ষেত্রে একটি বিশেষ্য দ্বারা অনুসৃত একটি ক্রিয়াপদের সমস্ত উপস্থিতি খুঁজুন. এই ধরনের একটি সহজ কাজ সমাধান করতে ব্যবহারকারীর কয়েক সেকেন্ড সময় লাগে এবং প্রদত্ত ক্ষেত্রগুলিতে শুধুমাত্র কয়েকটি মাউস ক্লিকের প্রয়োজন হয়৷
সৃষ্টি প্রক্রিয়া
একটি নির্দিষ্ট লক্ষ্য অর্জনের সময় প্রয়োজনের উপর নির্ভর করে অনুসন্ধানটি নিজেই সমস্ত সাবকর্পাসে এবং একটিতে, বিশেষভাবে নির্বাচিত উভয় ক্ষেত্রেই করা যেতে পারে:
- সর্বপ্রথম, এটি নির্ধারণ করা হয় কোন পাঠ্যগুলি কর্পাসের ভিত্তি তৈরি করবে। ব্যবহারিক উদ্দেশ্যে, সাংবাদিকতা, সংবাদপত্রের উপকরণ, ইন্টারনেট মন্তব্য প্রায়ই ব্যবহৃত হয়। গবেষণা প্রকল্পে, সবচেয়েবিভিন্ন ধরণের কর্পোরা, তবে পাঠ্যগুলি অবশ্যই কিছু সাধারণ ভিত্তিতে নির্বাচন করতে হবে৷
- পাঠ্যের ফলস্বরূপ সেটটি প্রি-প্রসেস করা হয়, ত্রুটিগুলি সংশোধন করা হয়, যদি থাকে, পাঠ্যের একটি গ্রন্থপঞ্জী এবং বহির্ভাষাগত বিবরণ প্রস্তুত করা হয়।
- সমস্ত নন-টেক্সচুয়াল তথ্য ফিল্টার করা হয়েছে: গ্রাফিক্স, ছবি, টেবিল মুছে ফেলা হয়েছে।
- টোকেনগুলি, সাধারণত শব্দগুলি, আরও প্রক্রিয়াকরণের জন্য বরাদ্দ করা হয়৷
- অবশেষে, রূপগত, সিনট্যাকটিক এবং অন্যান্য উপাদানের ফলের সেটের মার্কআপ করা হয়।
সমস্ত সঞ্চালিত ক্রিয়াকলাপের ফলাফল হল একটি সিনট্যাকটিক কাঠামো যার উপরে উপাদানগুলির একটি সেট বিতরণ করা হয়, যার প্রতিটির জন্য বক্তৃতার একটি অংশ, ব্যাকরণগত এবং কিছু ক্ষেত্রে, শব্দার্থিক বৈশিষ্ট্যগুলি সংজ্ঞায়িত করা হয়৷
কেস তৈরিতে অসুবিধা
এটা বোঝা গুরুত্বপূর্ণ যে একটি করপাস পেতে, অনেক শব্দ বা বাক্য একসাথে করা যথেষ্ট নয়। একদিকে, পাঠ্যের একটি সংগ্রহ অবশ্যই ভারসাম্যপূর্ণ হতে হবে, অর্থাৎ নির্দিষ্ট অনুপাতে বিভিন্ন ধরণের পাঠ্য উপস্থাপন করতে হবে। অন্যদিকে, মামলার বিষয়বস্তু একটি বিশেষ উপায়ে চিহ্নিত করা আবশ্যক।
প্রথম সমস্যাটি চুক্তির মাধ্যমে সমাধান করা হয়েছে: উদাহরণস্বরূপ, সংগ্রহে ৬০% কথাসাহিত্যের পাঠ্য, ২০% ডকুমেন্টারি, মৌখিক বক্তৃতা, আইন প্রণয়ন, বৈজ্ঞানিক কাগজপত্র ইত্যাদির লিখিত উপস্থাপনাকে একটি নির্দিষ্ট অনুপাত দেওয়া হয়। ভারসাম্যপূর্ণ কার্পাসের জন্য আদর্শ রেসিপি আজ বিদ্যমান নেই।
কন্টেন্ট মার্কআপ সংক্রান্ত দ্বিতীয় প্রশ্নটি সমাধান করা আরও কঠিন। পাঠ্যের স্বয়ংক্রিয় মার্কআপের জন্য বিশেষ প্রোগ্রাম এবং অ্যালগরিদম ব্যবহার করা হয়, তবে তারা 100% ফলাফল দেয় না, ব্যর্থতার কারণ হতে পারে এবং ম্যানুয়াল পরিমার্জন প্রয়োজন। এই সমস্যা সমাধানের সুযোগ এবং সমস্যাগুলি কর্পাস ভাষাতত্ত্বের উপর ভিপি জাখারভের কাজে বিশদভাবে বর্ণনা করা হয়েছে৷
টেক্সট মার্কআপ বিভিন্ন স্তরে করা হয়, যা আমরা নীচে তালিকাভুক্ত করব৷
মর্ফোলজিক্যাল মার্কআপ
স্কুল বেঞ্চ থেকে, আমরা মনে করি যে রাশিয়ান ভাষায় বক্তৃতার বিভিন্ন অংশ রয়েছে এবং তাদের প্রত্যেকটির নিজস্ব বৈশিষ্ট্য রয়েছে। উদাহরণস্বরূপ, একটি ক্রিয়াপদে মেজাজ এবং কালের বিভাগ রয়েছে যা একটি বিশেষ্যের নেই। একজন নেটিভ স্পিকার বিশেষ্য প্রত্যাখ্যান করে এবং বিনা দ্বিধায় ক্রিয়াগুলিকে সংযুক্ত করে, কিন্তু 100 মিলিয়ন শব্দ ব্যবহারের একটি কর্পাস চিহ্নিত করার জন্য কায়িক শ্রম উপযুক্ত নয়। সমস্ত প্রয়োজনীয় অপারেশন একটি কম্পিউটার দ্বারা সঞ্চালিত করা যেতে পারে, তবে এর জন্য এটি শেখানো প্রয়োজন৷
কম্পিউটারের জন্য প্রতিটি শব্দকে বক্তৃতার কিছু অংশ হিসাবে "বোঝার" জন্য রূপতাত্ত্বিক মার্কআপ প্রয়োজন যাতে নির্দিষ্ট ব্যাকরণগত বৈশিষ্ট্য রয়েছে। যেহেতু অনেকগুলি নিয়মিত নিয়ম রাশিয়ান ভাষায় কাজ করে (অন্য যে কোনও ভাষায়) তাই মেশিনে বেশ কয়েকটি অ্যালগরিদম রেখে রূপগত বিশ্লেষণের জন্য একটি স্বয়ংক্রিয় পদ্ধতি তৈরি করা সম্ভব। যাইহোক, নিয়মের ব্যতিক্রম রয়েছে, পাশাপাশি বিভিন্ন জটিল কারণ রয়েছে। ফলস্বরূপ, বিশুদ্ধ কম্পিউটার বিশ্লেষণ আজ আদর্শ থেকে অনেক দূরে, এবং এমনকি 4% ত্রুটি 100 মিলিয়ন ইউনিটের একটি কর্পাসে 4 মিলিয়ন শব্দের মান দেয়, যার জন্য ম্যানুয়াল পরিমার্জন প্রয়োজন৷
এই সমস্যাটি ভিপি জাখারভের বই "কর্পাস লিঙ্গুইস্টিকস" দ্বারা বিশদভাবে বর্ণিত হয়েছে।
সিনট্যাকটিক মার্কআপ
সিনট্যাকটিক বিশ্লেষণ বা পার্সিং একটি পদ্ধতি যা একটি বাক্যে শব্দের সম্পর্ক নির্ধারণ করে। অ্যালগরিদমের একটি সেটের সাহায্যে, পাঠ্যের বিষয়বস্তু, পূর্বনির্ধারণ, সংযোজন এবং বক্তব্যের বিভিন্ন বাঁক নির্ধারণ করা সম্ভব হয়। অনুক্রমের কোন শব্দগুলি প্রধান এবং কোনটি নির্ভরশীল তা নির্ধারণ করে, আমরা দক্ষতার সাথে পাঠ্য থেকে তথ্য আহরণ করতে পারি এবং একটি অনুসন্ধান অনুরোধের প্রতিক্রিয়ায় আমরা আগ্রহী এমন তথ্যগুলি ফেরত দেওয়ার জন্য মেশিনকে প্রশিক্ষণ দিতে পারি৷
যাইহোক, আধুনিক সার্চ ইঞ্জিনগুলি প্রাসঙ্গিক প্রশ্নের উত্তরে লম্বা পাঠ্যের পরিবর্তে নির্দিষ্ট নম্বর দেওয়ার জন্য এটি ব্যবহার করে: "একটি আপেলে কত ক্যালরি আছে" বা "মস্কো থেকে সেন্ট পিটার্সবার্গের দূরত্ব"। যাইহোক, এমনকি বর্ণিত প্রক্রিয়াটির মৌলিক বিষয়গুলি বুঝতে, আপনাকে "কর্পাস ভাষাবিদ্যার ভূমিকা" বা অন্য একটি মৌলিক পাঠ্যপুস্তকের সাথে নিজেকে পরিচিত করতে হবে৷
অর্থবোধক মার্কআপ
একটি শব্দের শব্দার্থ, সহজ ভাষায়, এর অর্থ। শব্দার্থগত বিশ্লেষণে একটি ব্যাপকভাবে প্রযোজ্য পদ্ধতি হল একটি শব্দের ট্যাগগুলিকে অ্যাট্রিবিউশন করা, যা শব্দার্থগত বিভাগ এবং উপশ্রেণির একটি সেটের অন্তর্গত প্রতিফলিত করে। টেক্সট সেন্টিমেন্ট অ্যানালাইসিস অ্যালগরিদম, স্বয়ংক্রিয় রেফারেন্সিং এবং কর্পাস ভাষাবিদ্যা পদ্ধতি ব্যবহার করে অন্যান্য কাজ সম্পাদনের জন্য এই ধরনের তথ্য মূল্যবান।
গাছের বেশ কিছু "শিকড়" আছে, যেগুলো বিমূর্ত শব্দখুব বিস্তৃত শব্দার্থবিদ্যা। এই গাছের শাখার সাথে সাথে নোডগুলি আরও বেশি নির্দিষ্ট আভিধানিক উপাদান ধারণ করে গঠিত হয়। উদাহরণস্বরূপ, "প্রাণী" শব্দটি "মানুষ" এবং "প্রাণী" এর মতো ধারণার সাথে যুক্ত হতে পারে। প্রথম শব্দটি বিভিন্ন পেশা, আত্মীয়তার শর্তাবলী, জাতীয়তা এবং দ্বিতীয়টি - শ্রেণী এবং প্রাণীর প্রকারে শাখা হতে থাকবে৷
তথ্য পুনরুদ্ধার ব্যবস্থার ব্যবহার
কর্পাস ভাষাবিজ্ঞানের ব্যবহারের ক্ষেত্রগুলি বিভিন্ন ধরণের কার্যকলাপের ক্ষেত্রগুলিকে কভার করে। কর্পোরা অভিধান সংকলন এবং সংশোধন, স্বয়ংক্রিয় অনুবাদ সিস্টেম তৈরি, সংক্ষিপ্তকরণ, তথ্য আহরণ, অনুভূতি নির্ধারণ এবং অন্যান্য পাঠ্য প্রক্রিয়াকরণের জন্য ব্যবহৃত হয়।
উপরন্তু, এই জাতীয় সংস্থানগুলি সক্রিয়ভাবে বিশ্বের ভাষাগুলির অধ্যয়ন এবং সামগ্রিকভাবে ভাষার কার্যকারিতার প্রক্রিয়াগুলিতে ব্যবহৃত হয়। প্রচুর পরিমাণে প্রাক-প্রস্তুত তথ্যের অ্যাক্সেস ভাষার বিকাশের প্রবণতাগুলির দ্রুত এবং ব্যাপক অধ্যয়নে অবদান রাখে, নিওলজিজম গঠন এবং স্থিতিশীল বক্তৃতা বাঁক, আভিধানিক এককগুলির অর্থের পরিবর্তন ইত্যাদি।
যেহেতু এত বিপুল পরিমাণ ডেটা নিয়ে কাজ করার জন্য অটোমেশন প্রয়োজন, আজ কম্পিউটার এবং কর্পাস ভাষাবিদ্যার মধ্যে একটি ঘনিষ্ঠ মিথস্ক্রিয়া রয়েছে৷
রাশিয়ান ভাষার জাতীয় কর্পাস
এই কর্পাস (সংক্ষেপে NKRC নামে) অনেকগুলি উপকর্পাস অন্তর্ভুক্ত করে যেগুলি বিভিন্ন ধরণের কাজ সমাধান করার জন্য সংস্থান ব্যবহার করার অনুমতি দেয়৷
এনসিআরএ ডাটাবেসের উপাদানগুলিকে ভাগ করা হয়েছে:
- 90 এবং 2000 এর দশকের মিডিয়াতে প্রকাশনাবছর, দেশী এবং বিদেশী উভয়ই;
- মৌখিক বক্তৃতার রেকর্ডিং;
- উচ্চারণগতভাবে চিহ্নিত পাঠ্য (যেমন উচ্চারণ চিহ্ন সহ);
- উপভাষা;
- কাব্যিক কাজ;
- সিনট্যাকটিক মার্কআপ সহ উপকরণ ইত্যাদি।
ইনফরমেশন সিস্টেমে রাশিয়ান থেকে ইংরেজি, জার্মান, ফ্রেঞ্চ এবং অন্যান্য অনেক ভাষায় (এবং এর বিপরীতে) কাজের সমান্তরাল অনুবাদ সহ সাবকর্পাসও রয়েছে।
এছাড়াও, ডাটাবেসে ঐতিহাসিক গ্রন্থের একটি অংশ রয়েছে যা এর বিকাশের বিভিন্ন সময়কালে রাশিয়ান ভাষায় লিখিত বক্তৃতা উপস্থাপন করে। এছাড়াও একটি প্রশিক্ষণ সংস্থা রয়েছে যা রাশিয়ান ভাষা আয়ত্ত করার জন্য বিদেশী নাগরিকদের জন্য উপযোগী হতে পারে৷
রাশিয়ান ভাষার জাতীয় কর্পাসে ৪০০ মিলিয়ন আভিধানিক একক রয়েছে এবং অনেক দিক দিয়ে ইউরোপীয় ভাষার কর্পোরার একটি উল্লেখযোগ্য অংশের চেয়ে এগিয়ে রয়েছে।
সম্ভাবনা
এই ক্ষেত্রটিকে প্রতিশ্রুতিশীল হিসাবে স্বীকৃতি দেওয়ার পক্ষে একটি সত্য হল রাশিয়ান বিশ্ববিদ্যালয়গুলির পাশাপাশি বিদেশী বিশ্ববিদ্যালয়গুলিতে কর্পাস ভাষাবিজ্ঞান গবেষণাগারের উপস্থিতি৷ বিবেচিত তথ্য পুনরুদ্ধার সংস্থানগুলির কাঠামোর মধ্যে ব্যবহার এবং গবেষণার সাথে, উচ্চ প্রযুক্তির ক্ষেত্রে কিছু ক্ষেত্রের উন্নয়ন, প্রশ্ন-উত্তর ব্যবস্থা জড়িত, তবে এটি উপরে আলোচনা করা হয়েছে৷
নতুন অ্যালগরিদম প্রবর্তনের পরিপ্রেক্ষিতে প্রযুক্তিগত থেকে সমস্ত স্তরে কর্পাস ভাষাবিজ্ঞানের আরও বিকাশের পূর্বাভাস দেওয়া হয়েছে যা তথ্য অনুসন্ধান এবং প্রক্রিয়াকরণের প্রক্রিয়াগুলিকে অনুকূল করে তোলে, কম্পিউটারের সক্ষমতা প্রসারিত করে, অপারেশনাল বৃদ্ধি করেমেমরি, এবং গৃহস্থালীর সাথে শেষ হয়, কারণ ব্যবহারকারীরা দৈনন্দিন জীবনে এবং কর্মক্ষেত্রে এই ধরনের সম্পদ ব্যবহার করার জন্য আরও বেশি সংখ্যক উপায় খুঁজে পায়৷
উপসংহারে
গত শতাব্দীর মাঝামাঝি, 2017 একটি দূরবর্তী ভবিষ্যতের মতো মনে হয়েছিল, যেখানে মহাকাশযান মহাবিশ্বের বিস্তৃতি সার্ফ করে এবং রোবটগুলি মানুষের জন্য সমস্ত কাজ করে। বাস্তবে, যাইহোক, বিজ্ঞান "ফাঁকা দাগ" দিয়ে পরিপূর্ণ এবং বহু শতাব্দী ধরে মানবজাতিকে সমস্যায় ফেলেছে এমন প্রশ্নের উত্তর দেওয়ার জন্য মরিয়া চেষ্টা করছে। ভাষার কার্যকারিতা সংক্রান্ত প্রশ্নগুলি এখানে স্থান করে নেয়, এবং কর্পাস এবং গণনামূলক ভাষাবিজ্ঞান আমাদের তাদের উত্তর দিতে সাহায্য করতে পারে৷
বড় পরিমাণ ডেটা প্রক্রিয়াকরণ আপনাকে এমন প্যাটার্নগুলি সনাক্ত করতে দেয় যা আগে অ্যাক্সেসযোগ্য ছিল না, নির্দিষ্ট ভাষার বৈশিষ্ট্যগুলির বিকাশের পূর্বাভাস দিতে, প্রায় রিয়েল টাইমে শব্দের গঠন ট্র্যাক করতে দেয়৷
ব্যবহারিক বৈশ্বিক স্তরে, কর্পোরাকে বিবেচনা করা যেতে পারে, উদাহরণস্বরূপ, জনসাধারণের অনুভূতি মূল্যায়নের একটি সম্ভাব্য হাতিয়ার হিসাবে - ইন্টারনেট হল বাস্তব ব্যবহারকারীদের দ্বারা তৈরি বিভিন্ন পাঠ্যের একটি ক্রমাগত আপডেট করা ডেটাবেস: এগুলি হল মন্তব্য, পর্যালোচনা, নিবন্ধ, এবং অন্যান্য অনেক ধরনের বক্তৃতা।
এছাড়া, কর্পোরার সাথে কাজ করা একই প্রযুক্তিগত উপায়গুলির বিকাশে অবদান রাখে যা তথ্য পুনরুদ্ধারের সাথে জড়িত, যা আমাদের কাছে Google বা ইয়ানডেক্স পরিষেবা, মেশিন অনুবাদ, ইলেকট্রনিক অভিধান থেকে পরিচিত৷
এটা বলা নিরাপদ যে কর্পাস ভাষাবিজ্ঞান শুধুমাত্র তার প্রথম পদক্ষেপ করছে এবং অদূর ভবিষ্যতে দ্রুত বিকাশ ঘটবে৷