সার্চ ইঞ্জিন কীভাবে কাজ করে: ক্রলিং, ইন্ডেক্সিং, এবং র‍্যাঙ্কিং

সার্চ ইঞ্জিন হচ্ছে একটি মেশিন যা আমাদের সকলের ছুঁড়ে দেওয়া প্রশ্নের উত্তর দিয়ে থাকে। সার্চ ইঞ্জিনগুলোর উদ্ভব হয়েছিল আমাদের প্রশ্নগুলো বুঝে সঠিকভাবে উত্তর বের করে আনার উদ্যেশে।

সার্চ ইঞ্জিন অপটিমাইজেশন সম্পর্কে জানা শুরু করার আগে সার্চ ইঞ্জিন কীভাবে কাজ করে তা নিয়ে আমাদের ধারণা নিয়ে রাখা প্রয়োজন। আমরা অনেকে এসইও শেখা শুরু করলে বেসিক জিনিসগুলো ক্লিয়ার না করে সবসময় পরের ধাপে যাওয়ার চেষ্টা করি৷ এতে করে পরবর্তীসময়ে অনেক বিষয় বুঝতে কষ্ট হয়।

তাই, আজকের পোস্টে আমরা বর্ণনা করব কীভাবে সার্চ ইঞ্জিন কাজ করে: ক্রলিং, ইন্ডেক্সিং, এবং র‍্যাঙ্কিং নিয়ে৷ চলুন শুরু করা যাক-

সার্চ ইঞ্জিন কীভাবে কাজ করে?

সার্চ ইঞ্জিন সাধারণত এই তিন উপায়ে কাজ করে থাকে-

ক্রলিং: প্রত্যেকটি সার্চ ইঞ্জিনের নিজস্ব রোবট রয়েছে৷ এই রোবটগুলোর মাধ্যমে সার্চ ইঞ্জিনগুলো সারা ইন্টারনেট জুড়ে খুঁজে খুঁজে লিংকগুলো বের করে আনে৷

ইন্ডেক্সিং: সার্চ ইঞ্জিন রোবটগুলো যেসকল লিংক খুঁজে পায়, সেগুলো সুন্দর করে সাজিয়ে রাখে এবং নিজস্ব সার্ভারে অ্যাড করে নেয়৷ হ্যাঁ, শুধু ইনডেক্স হয়ে গেলে কারও পেইজ র‍্যাংক করে ফেলবে, এমন বোকা সার্চ ইঞ্জিনগুলো না৷ সে তার বুদ্ধিমত্তার সাহায্যে ইউজার যে বিষয়ে সার্চ করছে তার সাথে মিল রেখে রেজাল্ট দেখায়৷

র‍্যাংকিং: সার্চ ইঞ্জিনগুলো সমগ্র ইন্টারনেট জুড়ে খুঁজে লিংকগুলো বের করার পর সবচেয়ে চ্যালেঞ্জিং বিষয় হচ্ছে ইউজারের করা সার্চ-এর সাথে সামঞ্জস্যপূর্ণ রেজাল্ট সামনে নিয়ে আসা৷ এই কাজটি যে ভালোভাবে করতে পারে, তাকেই আমরা সেরা সার্চ ইঞ্জিন বলে থাকি৷

সার্চ ইঞ্জিন ক্রলিং কী?

সার্চ ইঞ্জিন ক্রলিং হলো এমন একটি প্রসেস যার মাধ্যমে অনলাইনে যতগুলো এক্সেসেবল লিংক রয়েছে সেগুলো খুঁজে বের করে আনা৷ এই কাজটি সম্পন্ন করার জন্য প্রতিটি সার্চ ইঞ্জিনের নিজস্ব রোবট রয়েছে৷

গুগলের এই রোবটকে বলা হয় গুগলবট৷ তেমনি রয়েছে বিংবট, এসইএমরাশবট, রজারবট (মজ) ইত্যাদি৷ এই বটগুলোর কাজ অনলাইন থেকে সব ধরনের কন্টেন্ট খুঁজে বের করা৷ এই কন্টেন্টগুলো হতে পারে ছবি, ভিডিও, বই, আর্টিকেল, কিংবা পিডিএফ।

গুগলবটকে অনেক সময় স্পাইডারও বলা হয়ে থাকে। কারণ এটি স্পাইডারের মতো এক পেইজ থেকে আরেক পেইজে ঘুরে বেড়ায় এবং নতুন নতুন লিংক খুঁজে বের করতে সহায়তা করে। গুগলবট এই সকল কন্টেন্ট খুঁজে বের করে ইন্ডেক্স করে ‘ক্যাফেইন’-এ। ক্যাফেইন একটি বিশাল ডেটাবেইজের সম্ভার যেখানে সবগুলো লিংক জমা থাকে।

ক্যাফেইন এসকল লিংক আগে থেকে নিজেদের ডেটাবেইজে রাখার কারণে খুব দ্রুত সময়ে যেকোনো ধরনের রিলিভেন্ট রেজাল্ট সামনে এসে হাজির করতে পারে।

সার্চ ইন্ডেক্স কী?

গুগলবট-এর মাধ্যমে প্রাপ্ত সকল লিংক এবং তথ্য নিজেদের সার্ভারে নিয়ে আসতে পারলে সবকিছু আরও সুন্দর করে ফিল্টার করা যায়। সার্চ ইন্ডেক্স মূলত এসকল কারনে করা হয়। যেন রিলিভেন্ট তথ্য সকলের সামনে নিয়ে আসা যায় খুব দ্রুত সময়ে।

সার্চ র‍্যাঙ্কিং কী?

যেহেতু পূর্বেই বলেছি সার্চ ইঞ্জিনগুলো মূলত তৈরি করা হয়েছিলো সকলের সকল প্রশ্নের উত্তর দেওয়ার জন্য। এখন প্রশ্ন হচ্ছে কেউ একজন কোনো কিছু সার্চ করলে তাকে যেকোন ধরনের উত্তর দিয়ে দিলে হবে? না, ইউজারকে সবসময় সঠিক উত্তরটাই দিতে হবে। সঠিকভাবে এবং সামঞ্জস্যপূর্ণ রেজাল্ট ইউজারের সামনে হাজির করার মাঝেই সার্চ ইঞ্জিনের স্বার্থকতা।

এখন প্রাসঙ্গিক রেজাল্ট সামনে আনা হচ্ছে চ্যালেঞ্জের ব্যাপার। এই চ্যালেঞ্জিং ব্যাপারটি গুগল ভালোভাবে করতে পারার কারণেই তারা এখন বিশ্বের এক নাম্বার সার্চ ইঞ্জিন।

গুগল প্রতিটি প্রশ্নের বিপরীতে সর্বোচ্চ চেষ্টা করে রিলিভেন্ট তথ্য ইউজারের সামনে হাজির করতে। যেহেতু ইন্টারনেটে প্রতিদিন লক্ষ লক্ষ নতুন পেইজ যুক্ত হচ্ছে, গুগলবটও সেগুলো ক্যাফেইনে সংযুক্ত করতে থাকে। বিষয়টা গুগলের জন্য সহজ মনে হলেও আদতে সহজ নয়।

গুগল এতসব লিংক-এর মধ্য থেকে সবচেয়ে ভালো রেজাল্ট সামনে নিয়ে আসা নিয়ে কাজ করে। এইজন্য গুগল অনেক ধরনের ফিল্টার ব্যবহার করে। আমরা এই ধরণের ফিল্টারগুলোকে ‘সার্চ ইঞ্জিন র‍্যাঙ্কিং ফ্যাক্টর’ বলতে পারি। গুগলের প্রায় ২১৭টির অধিক সার্চ ইঞ্জিন র‍্যাঙ্কিং ফ্যাক্টর রয়েছে।

এই সবগুলো র‍্যাঙ্কিং ফ্যাক্টরের মাধ্যমে গুগল এতগুলো লিংক-এর মধ্য থেকে সবচেয়ে ভালো রেজাল্ট সামনে নিয়ে আসতে পারে। তার মানে কথাটা এমন দাঁড়াচ্ছে যে-

গুগলের প্রথমদিকে যতগুলো রেজাল্ট দেখায়, গুগল সেগুলোকে সার্চ করা প্রশ্নের জন্য সবচেয়ে উপযুক্ত রেজাল্ট মনে করে।

তাহলে কি গুগল আমার সবপেইজ ক্রল করে ফেলে?

উত্তর হচ্ছে- এটা নির্ভর করে আপনার ওপর। গুগল বা অন্যান্য সার্চ ইঞ্জিনকে আপনার ওয়েবসাইট ক্রল করতে দেবেন কিনা তার এক্সেসও আপনার কাছে আছে। আপনার অনেক পেইজ রয়েছে যেগুলোর ডাটা আপনি নিশ্চয়ই পাবলিক করতে চাইবেন না। সেগুলো আপনি Robots.txt এর মাধ্যমে নির্ধারণ করে দিতে পারবেন।

Robots.txt কি?

Robots.txt হচ্ছে একপ্রকার নির্ধারক যা সার্চ ইঞ্জিনগুলোকে বলে দেবে কোন পেইজ ক্রল করতে পারবে আর কোন পেইজ ক্রল করতে পারবে না। এই Robots.txt এর মাধ্যমে আপনি সাইটের গোপনীয়তা রক্ষা করতে পারবেন।

গুগল কীভাবে Robots.txt কে দেখে?

গুগল যখন কারও সাইটে Robots.txt পায় তাহলে সে যা করে-

যদি সাইটে Robots.txt না থাকে, তাহলে সে পুরো সাইট ক্রল করে।
যদি সাইটে Robots.txt ফাইল পাওয়া যায়, তাহলে Robots.txt-এর নির্দেশনা মোতাবেক কাজ করে। কারণ Robots.txt-এ সবকিছু নির্ধারণ করে দেওয়া যায় কোন পেইজ ক্রল করতে হবে তা।
যদি সাইটে Robots.txt এরর দেখায়, তাহলে গুগল ঐ সাইট ক্রল করেনা। তাই Robots.txt ব্যবহারে সাবধান হওয়া জরুরি। সামান্যতম ভুলে আপনি অনেক সম্ভাব্য ট্রাফিক হারাতে পারেন।

আমি কি দেখতে পারব গুগলবট শেষ কবে আমার সাইট ক্রল করেছে?

হ্যাঁ আপনি অবশ্যই দেখতে পারবেন। ক্যাশড ভার্সনের মাধ্যমে আপনি একনজর দেখে নিতে পারবেন শেষ কবে আপনার সাইট গুগলবট ক্রল করেছে।

গুগল সার্চ-এর মাধ্যমে ড্রপডাউন বাটনে চাপলে আপনি ক্যাশড লেখাটি দেখতে পাবেন। তখন আপনি দেখবেন, শেষ যখন গুগল আপনার সাইট ভিজিট করেছে তখন পেইজটি দেখতে কেমন ছিল।

ইন্ডেক্স হওয়া পেইজ কি রিমুভড হয়?

হ্যাঁ, আজকাল অনেকের সাইটে এই ধরনের সমস্যা দেখা দিচ্ছে। ইন্ডেক্স হওয়া পেইজ কিছুদিন পর ডি-ইন্ডেক্স হয়ে যাচ্ছে। এর সম্ভাব্য অনেকগুলো কারণ রয়েছে। যেমন-

URL 4xx অথবা 5xx ইরোর দেখাচ্ছে। অথবা 301 রিডাইরেক্ট ঠিকমত কাজ করছে না।
URL-এ হয়তো নো-ইন্ডেক্স ট্যাগ জুড়ে দেওয়া রয়েছে। যেখানে সাইটের ওনার চাচ্ছেন এই পেইজ যেন ইন্ডেক্স না করা হয়।
URL কোন ধরণের সার্চ ইঞ্জিন ওয়েবমাস্টারের কোন প্রকার গাইডলাইন অমান্য করার কারণে পেনালাইজ হওয়া (এটি সবচেয়ে বড় কারণগুলোর মধ্যে একটি)।
URL ব্লকও হয়ে থাকতে পারে। যেমন কিছু পেইজ আছে ভিজিটরকে ইউজার পাসওয়ার্ড ছাড়া প্রবেশ করতে দেয়া হয়না সেই সমস্ত পেইজ।

Search This Blog

Atahar Tanzid

সার্চ ইঞ্জিন কীভাবে কাজ করে: ক্রলিং, ইন্ডেক্সিং, এবং র‍্যাঙ্কিং

Comments

Post a Comment

Popular posts from this blog

যেভাবে চিনবেন আন-অফিশিয়াল ফোন

গ্রাফিক্স কার্ড-এর আসলে কাজ কী?