Mga Tutorial

Ano ang badyet ng pag-crawl

Talaan ng mga Nilalaman:

Anonim

Ang isang term na nabanggit nang maraming ngayon sa pamayanan ng SEO ay ang badyet ng pag-crawl. Kung isasalin namin ito, babasahin ito bilang "pagsubaybay sa badyet". Ito ay isang bihirang gitnang lupa, ngunit ito ay isang napaka-lumang konsepto sa lugar ng SEO.

Ang mga nagtatrabaho sa mga malalaking proyekto tulad ng malalaking e-commerce, portal ng nilalaman, at mga espesyalista sa SEO, nauunawaan ang badyet ng pag-crawl bilang oras na ginugugol ng Google na basahin ang mga pahina ng iyong website sa isang araw.

Indeks ng nilalaman

Ito ang oras na kinakailangan ng Google crawler na basahin ang mga pahina ng isang website. Ngunit sa oras na ito ang gumagasta ay gumugol sa iyong website ay nakasalalay sa ilang mga kadahilanan; tulad ng awtoridad sa website, porsyento ng dobleng nilalaman, mga error sa pahina, at marami pa.

Gayunpaman, ayon sa opisyal na blog ng webmaster ng Google, ipinapahayag na hindi lahat ay dapat alalahanin ang isyu ng badyet ng pag-crawl. Iyon ay, kung mayroon silang isang website na may ilang dosenang mga pahina, hindi na kailangang mag-alala tungkol sa tanong na ito ng pag- crawl ng pahina, tulad ng gagawin ito ng Google nang walang problema.

Ngunit kung mayroon kang isang online na tindahan o anumang iba pang proyekto sa web na may ilang libong mga pahina, kailangan mong magbayad ng mabuti at ma-optimize ang badyet ng pag-crawl patungkol sa iyong website.

Crawl budget at pagpoposisyon sa web

Mula sa Google pinatunayan nila na ang badyet ng pag-crawl ay hindi nakakaimpluwensya sa pagpoposisyon, ngunit gayunpaman maaari itong makaimpluwensya, at kung minsan ay makontrol, negatibo ang iba pang higit sa 200 mga kadahilanan na ranggo sa search engine.

Ngunit bakit nais nating i-crawl ng Google ang mga pahina ng aming website nang maraming beses? Sa kabilang banda, nakita namin ang ilang mga eksperto sa SEO na matiyak na ang pagkakaroon ng isang mahusay na badyet ng pag-crawl ay mapapabuti ang pangkalahatang pagpoposisyon ng mga pahina ng website sa pagraranggo at sa gayon ay madaragdagan ang organikong trapiko.

Karaniwan, ang Google ay may isang tiyak na oras upang gumastos sa loob ng iyong site, dahil kailangang magpasya kung magkano ang oras na gugugol sa bawat isa sa mga site sa buong mundo, kung saan kakailanganin itong kalkulahin kung gaano karaming mga sabay-sabay na koneksyon ang magagawa upang magawa basahin ang mga pahina ng iyong website.

Ang kalidad ng website

Gumugol ng oras ang Google upang makakonekta sa website, basahin ang mga pahinang ito at ihinto ang pagbabasa. Ulitin ito sa buong araw, ngunit palaging may isang maliit na bahagi ng oras. Ang maliit na bahagi ng oras, ay karaniwang proporsyonal sa awtoridad ng iyong website, ang bilang ng mga bagong pahina, at ang kaugnayan nito laban sa Google.

Ibinibigay ito ng kalidad ng iyong nilalaman at mga link na tumuturo sa site, iyon ay, kung mayroon kang maraming mga link na kalidad na tumuturo, maaaring ito ay maunawaan ka ng Google na may higit na kalidad at gumugol ng mas maraming oras sa iyong website, hangga't mayroong mas mataas na dami ng mga pahina.

Sa pangkalahatan, ang badyet ng pag-crawl ay hindi nagbabago nang malaki para sa isang 10, 50 o 100 na pahina ng pahina, kaya sa ilang mga pahina walang gaanong pagkakaiba. Ngunit para sa mga malalaking site, kung ang Google ay may isang segundo upang dumaan sa iyong site at sasabihin mo kung ano ang babasahin, magiging kapaki-pakinabang ito para sa crawler, na mas mabilis na makumpleto ang kanilang gawain sa pag-crawl.

Itakda kung alin ang mga mahahalagang pahina

Una, kailangan mong mag-mapa ng isang mas organisadong arkitektura ng impormasyon sa site, na nagtatatag kung aling mga pahina ang hindi kinakailangan, at hindi hayaang mai-index ang ilang mga pahina sa pamamagitan ng pagsuri sa robots.txt file.

Ang Google ay hindi dapat gumugol ng oras sa seksyon ng paghahanap ng website o kahit sa seksyon kung saan mayroong pag-navigate sa filter, halimbawa, tulad ng sa isang online store, kung saan maaari mong piliin ang laki ng sapatos, ang laki ng apartment o ang kulay ng shirt. Ang mga filter na ito ay karaniwang tinatawag ng mga tao na "face navigation" o "nabigasyon na filter".

Ang ilang mga webmaster ay may posibilidad na hadlangan ang mga filter na ito at ang mga paghahanap sa file na robots.txt, lamang upang ang Google ay hindi gumugol ng oras sa pagbabasa ng mga pahinang ito, sapagkat, sa katunayan, nakatuon sila sa gumagamit na naghahanap ng karanasan na iyon, at ang mga ito ay nilalaman na magagamit sa iba pang mga panloob na pahina ng site.

Inirerekumenda namin ang pagbabasa: Mga error na iwasan kapag lumilikha ng isang website

Ang isa pang linya ay sa pamamagitan ng pagtaguyod ng mga mahahalagang pahina ng iyong site, nai-save mo ang oras ng Google sa mga pahina na may dobleng nilalaman, tulad ng kaso ng pag-navigate sa mukha, ang pahina ng patakaran sa privacy, mga termino at kundisyon, at hindi gusto mo silang mabasa. Magagamit lamang ang mga pahinang ito sa mga gumagamit na nais makita ang mga pahinang ito.

Hindi dapat nasayang ang oras sa mga pahinang ito na may mababang halaga, dahil hindi mo nais na magranggo para sa kanila at hindi nila gaanong pagkakaiba sa iyong buhay, ngunit kailangan nilang makasama dahil nais ng ilang mga gumagamit na kumunsulta pa rin sa impormasyong ito.

Paano gumagana ang panloob na badyet

Sa pangkalahatan, ang badyet ng pag-crawl ay batay sa arkitektura. Tinukoy mo ang mga link sa mga pahina na mabasa ng Google at mabasa ang mga ito sa antas ng kanilang kahalagahan.

Pagkatapos ng lahat, ang mga link na lumalabas sa mga pahinang ito ay ang may posibilidad na unahin ng Google. Kaya, sulit ang lohika na mag-isip nang mabuti tungkol sa panloob na pag - uugnay at kung paano nakabuo ang iyong pahina.

Ang badyet ng pag-crawl ay ang oras na ginugol ng Google upang mabasa, maunawaan ang impormasyon sa website at suriin ang mga elemento tulad ng samahan ng arkitektura at pag-block sa robots.txt. Ang paggamit ng tag na nofollow sa isang link ay pumipigil sa Google mula sa pagsunod sa link na iyon. Halimbawa, kung ang isang link ay may katangian na nofollow, ngunit ang isa pang panloob na link ay walang makukuha sa pahina, pagkatapos ay sasakay ang Google sa ikalawang landas, na ginagawang mas gumugol ka ng mas kaunting oras.

Mga pakinabang ng isang na-optimize na site

Mayroong mga bagay na makakatulong sa iyo na maraming mga pahina na basahin nang pang-araw-araw, na maaaring maging kapaki-pakinabang para sa anumang website. Halimbawa, kung ang iyong server ay mas mabilis, ang Google ay, sa oras na iyon, humiling ng higit pang mga pahina.

Kung ang iyong pahina ay na- compress, ang Google ay, sa mga kahilingan na ito, humiling ng higit pang mga pahina. At kung mayroon kang isang malinis at sapat na code, makakatanggap din ang Google ng isang mas naka-compress na pahina sa pagtatapos ng araw, na may mas mahusay na mga piraso. Iyon ay, ang pag- optimize ng website, ang bilis ng site at server, malaki ang nakakaimpluwensya sa isyu ng badyet ng pag-crawl.

Paano makalkula ang badyet ng pag-crawl ng iyong site

Ang bilang ng mga beses na nilalagay ng Google search engine spider ang iyong website sa isang tiyak na oras na bahagi ay ang tinatawag nating "pag-crawl na badyet". Samakatuwid, kung bisitahin ng Googlebot ang iyong site nang 32 beses sa isang araw, masasabi namin na ang badyet ng pagsubaybay ng Google ay humigit-kumulang 960 sa isang buwan.

Maaari kang gumamit ng mga tool tulad ng Google Search Console at ang Bing Webmaster Tools upang makalkula ang tinatayang badyet ng pag-crawl ng iyong website. Mag-log in lamang at magtungo sa Pagsubaybay> Mga Istatistika sa Pagsubaybay upang makita ang average na bilang ng mga sinusubaybayan na mga pahina bawat araw.

Crawl budget at SEO: pareho ba sila?

Oo at hindi Habang ang parehong mga uri ng pag-optimize ay naglalayong gawing mas nakikita ang iyong pahina at maapektuhan ang iyong mga SERP, ang SEO ay naglalagay ng isang mas malaking diin sa karanasan ng gumagamit, habang ang pag-optimize ng spider ay ganap na tungkol sa pag-akit ng mga bot.

Ang search engine optimization (SEO) ay mas nakatuon sa proseso ng pag-optimize para sa mga query sa gumagamit. Sa halip, ang pag- optimize ng Googlebot ay nakatuon sa kung paano na-access ng Google crawler ang iyong site.

Paano i-optimize ang badyet ng pag-crawl

Mayroong maraming mga paraan upang ma- optimize ang badyet ng pag- crawl ng anumang website, depende sa bawat proyekto sa web, bilang ng mga pahina at iba pang mga isyu, narito ang ilang mga puntos upang isaalang-alang:

Tiyaking maaaring masubaybayan ang iyong mga pahina

Ang iyong pahina ay maaaring makita kung ang mga search engine spider ay maaaring makahanap at sundin ang mga link sa loob ng iyong website, kaya kailangan mong i-configure ang .htaccess at robots.txt file upang hindi nila mai-block ang mga kritikal na pahina sa iyong site. Maaari mo ring ibigay ang mga bersyon ng teksto ng mga pahina na labis na umaasa sa mga mayamang file ng media, tulad ng Flash at Silverlight.

Siyempre, ang reverse ay totoo kung nais mong pigilan ang isang pahina mula sa paglitaw sa mga resulta ng paghahanap. Gayunpaman, ang pagtatakda ng robots.txt file upang "disallow" ay hindi sapat kung nais mong pigilan ang isang pahina na mai-index. Ayon sa Google, ang panuntunang "hindi pagpayag" ay hindi ginagarantiyahan na ang isang pahina ay hindi lilitaw sa mga resulta.

Kung ang panlabas na impormasyon (halimbawa, mga link na papasok) ay patuloy na nagdadala ng trapiko sa pahina na iyong tinanggihan, maaaring magpasya ang Google na may kaugnayan pa rin ang pahina. Sa kasong ito, dapat mong manu-manong i-block ang pag- index ng pahina gamit ang tag ng noindex meta o header ng HTTP X-Robots-Tag.

- Noindex meta tag: ilagay ang meta tag na ito sa seksyon ng iyong pahina upang maiwasan ang karamihan sa mga web crawler na mai-index ang iyong pahina:

noindex "/>

- X-Robots-Tag - Lugar ang sumusunod sa tugon ng header ng HTTP upang turuan ang mga crawler na huwag mag-index ng isang pahina:

X-Robots-Tag: noindex

Mangyaring tandaan na kung gumagamit ka ng tag ng noindex meta o ang X-Robots-Tag, hindi mo dapat balewalain ang pahina sa robots.txt. Kailangang mai-crawl ang pahina bago makita at sundin ang tag.

Maingat na paggamit ng mga mayamang file ng media

May isang oras na ang Googlebot ay hindi maaaring mag-crawl ng nilalaman tulad ng JavaScript, Flash, at HTML. Ang mga oras na iyon ay matagal na nawala (kahit na ang Googlebot ay mayroon pa ring mga isyu sa Silverlight at ilang iba pang mga file).

Gayunpaman, kahit na basahin ng Google ang karamihan sa mga mayaman na file ng media, maaaring hindi magawa ng iba pang mga search engine, na nangangahulugang dapat mong gamitin ang mga file na ito nang makatarungan, at marahil ay nais mong maiwasan ang mga ito nang buo sa mga pahinang nais mo. posisyon.

Iwasan ang pag-redirect ng mga string

Ang bawat URL na mo-redirect ay nagiging sanhi sa iyo na mag-aaksaya ng kaunti sa iyong badyet ng pag-crawl. Kung ang iyong website ay may mahabang pag-redirect ng mga string, i.e. isang malaking bilang ng 301 at 302 na mga pag-redirect sa isang hilera, posible para sa mga spider tulad ng Googlebot na bumagsak bago maabot ang landing page, nangangahulugan na ang pahina ay hindi mai-index. Ang pinakamahusay na kasanayan na may mga pag-redirect ay ang pagkakaroon ng ilang mga pag- redirect hangga't maaari sa website, at hindi hihigit sa dalawa sa isang hilera.

Ayusin ang mga sira na link

Nang tanungin si John Mueller tungkol sa kung ang mga sirang mga link ay nakakaapekto sa pagpoposisyon o hindi, sumagot siya na medyo nakatuon ito sa karanasan ng gumagamit kaysa sa para sa mga layunin sa pagpoposisyon.

Ito ang isa sa mga pangunahing pagkakaiba sa pagitan ng SEO at Googlebot na pag-optimize, dahil nangangahulugan ito na ang mga sirang mga link ay hindi naglalaro ng isang malaking papel sa mga ranggo, kahit na labis nilang pinipigilan ang kakayahan ng Googlebot na i- index at ranggo ng isang website.

Gamit ang sinabi, dapat mong sundin ang payo ni Mueller na isinasaalang-alang na ang algorithm ng Google ay napabuti nang malaki sa mga nakaraang taon, at ang anumang nakakaapekto sa karanasan ng gumagamit ay malamang na nakakaapekto sa mga SERP.

Itakda ang mga parameter sa mga dynamic na URL

Tinatrato ng mga spider ang mga dinamikong URL na humahantong sa parehong pahina ng magkahiwalay na mga pahina, na nangangahulugang maaaring hindi mo nasasayang ang iyong pag-crawl ng badyet. Maaari mong pamahalaan ang mga parameter ng URL sa pamamagitan ng pag-access sa Search Console at pag-click sa Pagsubaybay> Mga Parameter ng URL. Mula rito, maaari mong ipagbigay-alam sa Googlebot kung ang iyong CMS ay nagdaragdag ng mga parameter sa iyong mga URL na hindi nagbabago ng nilalaman ng isang pahina.

Linisin ang sitemap

Ang mga XML sitemaps ay tumutulong sa parehong mga bisita at mga robot ng spider, na ginagawang mas maayos ang nilalaman at mas madaling mahanap. Samakatuwid, subukang panatilihing napapanahon ang sitemap at linisin ito ng anumang kalat na maaaring makapinsala sa kakayahang magamit ng iyong site, kasama na ang 400 na mga pahina ng antas, hindi kinakailangang mga pag-redirect, mga di-kanonikal na pahina at na-block ang mga pahina.

Ang pinakamadaling paraan upang linisin ang sitemap ay ang paggamit ng isang tool tulad ng Website Auditor. Maaari mong gamitin ang XML sitemap generator ng Website Auditor upang lumikha ng isang malinis na sitemap na hindi kasama ang lahat ng mga naharang na pahina mula sa pag-index. Bukod dito, sa pamamagitan ng pagpunta sa "Site Audit" na pagpipilian maaari mong hanapin at ayusin ang lahat ng 4xx error, 301 at 302 na mga redirect at mga di-kanonikal na mga pahina.

Gumamit ng mga feed

Parehong feed, RSS, XML at Atom ay nagbibigay-daan sa nilalaman na maihatid sa mga tagasunod kapag hindi sila nagba-browse sa site. Pinapayagan nito ang mga gumagamit na mag-subscribe sa kanilang mga paboritong site at makatanggap ng mga regular na pag-update sa tuwing nai-publish ang bagong nilalaman.

Bilang karagdagan sa katotohanan na ang mga feed ng RSS ay matagal nang magandang paraan upang madagdagan ang pagbabasa at pakikipag-ugnayan, kabilang din sila sa mga pinapabisita na mga site ng Googlebot. Kapag natanggap ng iyong website ang isang pag-update (halimbawa, mga bagong produkto, mga post sa blog, pag-update ng pahina, atbp.), Ipadala ito sa Google Feed Burner upang matiyak na tama itong na-index.

Lumikha ng mga panlabas na link

Ang link ng link ay nananatiling isang mainit na paksa, at walang sulyap na aalis ito sa anumang oras sa lalong madaling panahon.

Pag-unlad ng mga relasyon sa online, pagtuklas ng mga bagong komunidad, pagbuo ng halaga ng tatak; Ang mga maliit na panalo na ito ay dapat na mai-print sa iyong proseso ng pagpaplano ng link. Habang may mga natatanging elemento ng gusali ng link na ngayon kaya 1990, ang tao ay kailangang kumonekta sa iba ay hindi kailanman magbabago.

Sa kasalukuyan, mayroon kaming katibayan na ang mga panlabas na link ay malapit na nakakaugnay sa bilang ng mga spider na bumibisita sa iyong website.

Panatilihin ang integridad ng panloob na pag-uugnay

Bagaman ang paglikha ng mga panloob na link ay hindi naglalaro ng malaking papel sa bilis ng pag-crawl, hindi nangangahulugang maaari itong ganap na hindi papansinin. Ang isang maayos na napapanatili na istraktura ng site ay ginagawang madali ang iyong nilalaman sa pamamagitan ng mga search engine nang hindi sinasayang ang iyong badyet ng pag-crawl.

Ang isang maayos na inayos na panloob na istraktura ng link ay maaari ring mapabuti ang karanasan ng gumagamit, lalo na kung ang mga gumagamit ay maaaring maabot ang anumang lugar ng iyong website sa tatlong pag-click. Ang paggawa ng lahat na mas madaling ma-access ay nangangahulugan na ang mga bisita ay mananatili nang mas mahaba, na maaaring mapabuti ang mga SERP.

Ano ang konklusyon natin?

Muli, ang pagpapalakas sa nabanggit na sa itaas, ang isyung ito ng badyet ng pag- crawl ay magiging mahalaga para sa mga malalaking website na may daan-daang at libu-libong mga web page, kung hindi man ito ay hindi nagkakahalaga ng pag-aalala, dahil susubaybayan ng Google ang iyong maayos ang website.

Hindi namin dapat kumplikado ang pag-crawl ng mga pahina ng aming site sa Google. Maraming mga website na may sapat na mga error, at kahit na sa mga hadlang na nilikha ng mga robots.txt at sitemap.xml file na pumipigil sa Google na mai-access ang nilalaman. Kung nais nating pagbutihin ang pagpoposisyon sa ranggo ng Google, pagkatapos ay kailangan nating pahintulutan at gawing simple ang mga pahina ng website upang mabilis na mai-access, ma-index at posisyon ang Google. Napakasimple.

Sa ngayon, marahil ay napansin mo ang isang kalakaran sa artikulong ito: Ang mga pinakamahusay na kasanayan para sa pagsubaybay ay may posibilidad na mapabuti ang paghahanap. Kaya kung nagtataka ka kung mahalaga ang pag-optimize ng badyet sa badyet sa iyong website, ang sagot ay oo.

Nang simple, kung mas pinadali mo upang matuklasan at i-index ng Google ang iyong website, masisiyahan ka sa higit pang pag-crawl, na nangangahulugang mas mabilis na pag-update kapag nag-post ka ng mga bagong nilalaman. Mapapabuti mo rin ang pangkalahatang karanasan ng gumagamit, pagpapabuti ng kakayahang makita at, sa huli, pagraranggo ng SERP.

Ito ay ilan lamang sa mga puntos, bukod sa marami pa, upang mapagbuti at ma-optimize ang badyet ng pag-crawl ng isang website.

Mga Tutorial

Pagpili ng editor

Back to top button