Počítače, Programovanie

Čo je crawler? crawler nástroj "Yandex" a Google

Každý deň na internete existuje obrovské množstvo nových materiálov pre vytvorenie webovej stránky aktualizované starej webovej stránky, odosielať fotografie a videá. Bez skrytých z vyhľadávačov nemožno nájsť na World Wide Web, žiadny z týchto dokumentov. Alternatívy, ako robotických programov v danom okamihu neexistuje. Čo je to vyhľadávací robot, prečo to a potrebujeme, ako fungujú?

Čo je to vyhľadávanie robot

site Crawler (vyhľadávače) - jedná sa o automatický program, ktorý je schopný navštíviť milióny webových stránok, rýchle prehliadanie internetu bez akéhokoľvek zásahu obsluhy. Boti sú neustále skenovanie priestor na World Wide Web, hľadanie nových webových stránok a pravidelne navštevovať už indexované. Iné mená pre prehľadávače pavúkov, roboti, topánky.

Prečo sú pre vyhľadávanie pavúky

Hlavné funkcie, ktoré vykonávajú vyhľadávanie pavúky - webové stránky indexujú, rovnako ako text, obrázky, audio a video súbory, ktoré sú na ne. Roboty zistiť referencie, zrkadlo stránky (kópie) a aktualizácie. Roboti tiež vykonávať kontrolu HTML kód pre štandardy zhody Svetovej organizácie, ktorá vyvíja a implementuje technologické štandardy pre World Wide Web.

Čo je to indexovanie, a prečo je to potrebné

Indexácia - je v skutočnosti, je proces návšteve konkrétnej webovej stránky pomocou vyhľadávačov. Program skenuje text na týchto stránkach, obrázky, videá, odchádzajúce odkazy, potom je stránka sa zobrazí vo výsledkoch vyhľadávania. V niektorých prípadoch, tieto stránky vám nemôžu byť kontrolované automaticky, potom to môže byť pridané do vyhľadávača ručne webmaster. Obvykle k tomu dochádza v neprítomnosti externých odkazov na konkrétne (často len nedávno vytvorenej) stránky.

Ako hľadať pavúky

Každý vyhľadávač má svoj vlastný topánka s vyhľadávacím robotom Google môže výrazne líšiť v závislosti na mechanizme pracuje na podobnom programe, "Yandex" alebo iných systémov.

Všeobecne platí, že pracovný princíp robot je nasledujúci: Program "príde" na mieste a externé odkazy na hlavnej stránke, "číta" webového prostriedku (vrátane tých, pri pohľade réžia nevidí používateľa). Loď je, ako sa orientovať medzi stránkami webu a presunúť na iné.

Program bude zvoliť, ktoré miesta na indexe? Častejšie ako nie "trip" pavúk začne spravodajských serverov alebo hlavné adresára zdrojov a zoskupení s veľkou referenčnej hmotnosti. Crawler priebežne naskenuje stránky jednu po druhej, na rýchlosť a konzistenciu indexovanie nasledujúce faktory:

Vnútorné: perelinovka (vnútorné väzby medzi stránkami toho istého zdroja), veľkosť miesta, správny kód, užívateľsky priateľské a tak ďalej;
Externý: celková referenčnej hmotnosti, čo vedie k webu.

Prvá vec, ktorú vyhľadávač robot vyhľadáva na ľubovoľnej webovej stránky pomocou súboru robots.txt. indexovanie ďalší zdroj je vykonávané na základe prijaté informácie, že je z tohto dokumentu. Tento súbor obsahuje špecifické pokyny pre "pavúky", ktoré môžu zvýšiť šance na návšteve stránok pomocou vyhľadávačov, a v dôsledku toho, aby sa dosiahlo hit miesto v ranej fáze "Yandex" alebo Google.

Program analógy prehľadávače

Často termín "vyhľadávanie robot" je zamieňať s inteligentný, užívateľmi alebo autonómnych agentov, "mravce" alebo "červy". Ponorené významné rozdiely len v porovnaní s látkami, ostatné definície sa vzťahujú na podobné typy robotov.

Napríklad činidlá môžu byť:

duševné: program, ktorý sa pohybuje z miesta na miesto, a to nezávisle rozhodovanie o tom, ako postupovať; nie sú príliš bežné na internete;
Autonómne: Tieto látky pomáhajú užívateľovi pri výbere produktu, vyhľadávanie alebo vypĺňanie formulárov, tzv filtre, ktoré sú len málo súvisí s programami v sieti ;.
Užívateľ: program prispieva k interakcii používateľa s World Wide Web, prehliadač (napríklad Opera, IE, Google Chrome, Firefox), poslovia (Vıber, Telegram) alebo e-mailových programov (MS Outlook a Qualcomm).

"Mravce" a "červy" sú podobné vyhľadávače "pavúky". Prvá forma medzi sieťou a konzistentne komunikovať takhle mravčej kolónie, "červy" je schopný replikovať v iných ohľadoch rovnaké ako štandardné crawler.

Rôzne roboty vyhľadávačov

Rozlišovať medzi mnohými typmi roboti. V závislosti od účelu tohto programu sú:

"Mirror" - duplikáty prehliadania webových stránok.
Mobile - zameranie na mobilnú verziu webových stránok.
Quick - stanoviť nové informácie rýchlo zobrazením najnovšie aktualizácie.
Referencie - referencie index, počítať ich počty.
Indexer rôzne typy obsahu - špecifické programy pre text, audio, video, obrázky.
"Spyware" - hľadá stránky, ktoré zatiaľ nie sú zobrazené vo vyhľadávači.
"Ďateľ" - pravidelne navštevovať stránky, kontrolovať ich vhodnosť a účinnosť.
National - prehliadaní webových zdrojov umiestnených na jednej z domén krajín (napr .mobi alebo .kz .ua).
Global - index všetky národné lokality.

Roboti veľkých vyhľadávačov

Existuje aj niekoľko vyhľadávačov. Teoreticky, ich funkčnosť sa môže meniť v širokom rozmedzí, ale v praxi programy sú takmer identické. Hlavné rozdiely indexovanie webových stránok roboty dva hlavné vyhľadávače sú nasledovné:

Prísnosť testovania. Predpokladá sa, že mechanizmus crawler "Yandex" trochu prísnejšie odhaduje v mieste z hľadiska súladu s normami World Wide Web.
Zachovanie integrity webu. Prehľadávač Google indexuje celý web (vrátane mediálneho obsahu), "Yandex" možno tiež zobraziť obsah selektívne.
Speed Test novej stránky. Google pridáva nové zdroje vo výsledkoch vyhľadávania v priebehu niekoľkých dní, v prípade, že "od Yandex" proces môže trvať dva týždne alebo viac.
Frekvencia re-indexovanie. Pásové "Yandex" skontrolovať aktualizácie dvakrát týždenne, a Google - jedna každých 14 dní.

Internet samozrejme nie je obmedzený na oboch vyhľadávačov. Iné vyhľadávače majú svoje roboty, ktorí sledujú svoje vlastné indexovanie parametre. Okrem toho existuje niekoľko "pavúky", ktoré sú navrhnuté tak, nie sú významné pre vyhľadávanie zdrojov a jednotlivé tímy alebo webmasteri.

spoločné mylné

Na rozdiel od všeobecného presvedčenia, "pavúky" nespracovávajú informácie. Program iba kontroluje a ukladá webové stránky a ďalšie spracovanie trvá úplne odlišné roboty.

Tiež, mnoho užívateľov sa domnievajú, že vyhľadávačov majú negatívny dopad a "škodlivé" Internet. V skutočnosti, niektoré verzie "pavúkov" môže výrazne preťaženie servera. K dispozícii je tiež ľudský faktor - webmaster, ktorý vytvoril program, môžu robiť chyby v konfigurácii robota. Napriek tomu väčšina existujúcich programov sú dobre navrhnuté a profesionálne spravované, a prípadné vzniknuté problémy rýchlo odstránené.

Ako riadiť indexovanie

Roboti vyhľadávačov sú automatizované programy, ale proces indexovania môže byť čiastočne riadený webmastera. Toto veľmi pomáha vonkajšie a vnútorné optimalizácie zdroje. Okrem toho môžete manuálne pridať nový web do vyhľadávača: veľké zdroje majú zvláštnu formu registrácie webových stránok.

Počítače, Programovanie

Čo je crawler? crawler nástroj "Yandex" a Google

Čo je to vyhľadávanie robot

Prečo sú pre vyhľadávanie pavúky

Čo je to indexovanie, a prečo je to potrebné

Ako hľadať pavúky

Program analógy prehľadávače

Rôzne roboty vyhľadávačov

Roboti veľkých vyhľadávačov

spoločné mylné

Ako riadiť indexovanie

Similar articles

Počítače

Počítače

Počítače

Počítače

Počítače

Počítače

Trending Now

Počítače

Šport a Fitness

Domov a rodina

Novinky a spoločnosť

Autá

Šľachtenia sám seba

Newest

Intelektuálny vývoj

Zdravie

Tvorenie

Cestovanie

Tvorenie

Tvorenie