Таны google-ээс хайсан асуулга хэдхэн секунтын дотор яг хайж байгаа зүйлийг тан агуулсан сайтыг гаргаж ирдэгийг та гайхаж байсан уу?
Веб мөлхөгч гэж юу вэ?
Веб мөлхөгч (web crawler)-ыг spider гэж дууддаг. Энэ нь түүний интернетийн бүх сайтуудаар яг л аалз тороороо гүйж байгаа мэт гүйдэгтэй холбоотой. Энэхүү бот нь интернет дэх бүхий л контентуудыг татаж бас индекслэдэг. Тухайн сайтын юуны талаар мэдээлэл өгүүлж байгааг олж авах нь түүний зорилго байдаг.
Бүхий л Веб хайлтын системүүдийн ард дандаа ийм бот ажиллаж байдаг. Мөлхөгч ботны цуглуулсан мэдээлэл дээр үндэслэн хайлтын алгоритм хэрэгжүүлснээр таны хайсан зүйлтэй илүү дөхөхүйц линкүүдийн жагсаалтыг гаргаж ирдэг.
Номын санг интернет харин сайтуудыг ном гэж үзвэл уг номын сан хэдэн тербум номтой болно. Харин Веб мөлхөгчийг авч үзвэл яг л номын санчтай адилхан. Тухайн бүх номыг эмх цэгцэнд оруулан категорчилдог гэсэн үг.
Web Crawling хэрхэн ажилладаг вэ?
Интернет байнга өөрчлөгдөж, өргөжиж байна.Та үүнийг уншиж байх зуур хэдэн мянган мэдээлэл интернетэд нэмэглсэн гэдэгт би эргэлзэхгүй байна. Интернэтэд нийт хэчнээн вэб хуудас байгааг яг таг тодорхойлох боломжгүй тул вэб мөлхөгч бот нь эхлээд “seed” буюу мэдэгдэж буй URL-уудын жагсаалтаас эхэлдэг. Эхний ээлжид эдгээр URL-тай холбоотой вэб хуудсуудыг мөлхөж (crawl), дараа нь тэрхүү хуудсуудаас бусад URL руу чиглэсэн hyperlink олж, дараагийн мөлхөх хуудасны жагсаалтад нэмдэг.
Интернетэд индексжүүлэлт хийх боломжтой вэб хуудсуудын тоо маш их тул энэхүү процесс бараг хязгааргүй үргэлжлэх боломжтой. Гэсэн хэдий ч вэб мөлхөгч нь тодорхой бодлогын дагуу ажилладаг. Ямар хуудсуудыг мөлхөх, ямар дарааллаар мөлхөх, мөн тухайн хуудасны контент шинэ эсэхийг шалгаж хэр ойрхон дахин мөлхөх сонголтоо хийдэг нь нилээн шүүлтүүртэй ханддаг гэсэн үг юм.
- Эх үүсвэр URL-уудыг сонгох: Вэб мөлхөгчид “seed URLs” буюу анхны хаягуудыг өгч, тэдгээрээс хайлт эхлүүлдэг.
- Хуудсыг татаж авах: HTTP хүсэлтийг ашиглан тухайн хуудасны HTML контентыг авдаг.
- Мэдээллийг задлах: Авсан HTML-д шинжилгээ хийж, шаардлагатай өгөгдлийг (жишээ нь: текст, линк, зураг) гаргаж авна.
- Шинэ линкүүдийг хайх: Тухайн хуудсанд буй бусад линкүүдийг олж, дараагийн мөлхөх хуудсуудын жагсаалтад нэмнэ.
- Өгөгдлийг хадгалах: Хандсан болон авсан өгөгдлийг өгөгдлийн санд эсвэл файлын системд зохион байгуулж хадгална.
Ихэнх вэб мөлхөгчид нийтэд нээлттэй интернетийн бүх вэб хуудсыг мөлхөх боломжгүй, бас тийм зорилготой ч байдаггүй. Харин тэдгээр нь эхлээд аль хуудсуудыг мөлхөхийг дараах хүчин зүйлсийн үндсэн дээр шийддэг:
- Тухайн хуудас руу бусад хуудсаас холбогдох линкүүдийн тоо
- Тухайн хуудсыг үзсэн зочдын тоо
- Хуудаснаас чухал мэдээлэл агуулсан байх магадлалыг илтгэх бусад хүчин зүйлс
Хайлтын индексжүүлэлт гэж юу вэ?
Хайлтын индексжүүлэлт гэдэг нь интернетэд зориулсан номын сангийн картын каталог үүсгэхтэй төстэй зүйл юм. Энэ нь хайлтын системд хүмүүсийн хайж буй мэдээллийг интернэтээс хаанаас авахыг мэдэхэд тусалдаг. Үүнийг мөн номын ард байдаг индексийн жагсаалттай зүйрлэж болно. Тэр жагсаалт нь тодорхой сэдэв эсвэл үг хэллэг номын аль хэсгүүдэд дурдагдсан болохыг харуулдаг.
Энэ нь ихэвчлэн хуудсанд харагдаж буй текст болон хэрэглэгчдэд харагддаггүй хуудсын мета өгөгдөлд төвлөрдөг. Хэрэглэгчид эдгээр үгсийг хайхад, хайлтын систем нь эдгээр үгс орсон бүх хуудасны индекстэй харьцуулалт хийж, хамгийн холбогдолтойг нь сонгож харуулдаг.
Мета өгөгдөл гэж юу вэ?
Хайлтын системд вэб хуудсанд ямар мэдээлэл байгааг илэрхийлдэг өгөгдөл юм. Ихэвчлэн мета гарчиг болон мета тайлбар нь хайлтын системийн үр дүнгийн хуудсанд харагддаг бөгөөд вэб хуудсын хэрэглэгчдэд шууд харагдах контент биш юм.
Robots.txt шаардлага
Вэб мөлхөгчид мөн robots.txt протоколын дагуу аль хуудсуудыг мөлхөхөө шийддэг. Вэб хуудас мөлхөхөөс өмнө тухайн хуудасны вэб серверт байрлах robots.txt файлыг шалгана. robots.txt файл нь вэб сайт эсвэл аппликейшн руу ханддаг ботуудад зориулсан дүрмийг тодорхойлсон текст файл юм. Энэ файл нь ботуудад ямар хуудсуудыг мөлхөх, ямар холбоосуудыг дагах боломжтойг заадаг.
Дүгнэлт
Вэб мөлхөгч нь интернетийн эцэс төгсгөлгүй орон зайг системтэйгээр судлах, хэрэглэгчдэд үнэн зөв, хурдацтай мэдээлэл хүргэх түлхүүр хэрэгсэл гэдгийг харлаа. Энэхүү технологи нь цаашдаа ч интернэт орчинд зайлшгүй шаардлагатай хэвээр байна гэж бодож байна. ССүүлд нь хэлэхэд хэрэв та контент бүтээгч бол заавал веб мөлхөгчний шалгууруудыг судлаарай гэж зөвлөмөөр байна.
Эх сурвалжууд
https://www.geeksforgeeks.org/what-is-a-webcrawler-and-where-is-it-used
https://www.akamai.com/glossary/what-is-a-web-crawler