КомпютриПрограмиране

Какво е е робот? верижен инструмент "Яндекс" и Google

Всеки ден в интернет има огромно количество нови материали, за да се създаде уеб сайт се обновява старите уеб страниците, да качвате снимки и видеоклипове. Без скрити от търсачките не могат да бъдат намерени в World Wide Web, нито един от тези документи. Алтернативи като роботизирани програми във всеки даден момент не съществува. Какво е робот за търсене, защо го и се нуждаят как да работят?

Какво е робот търсене

Верижен сайт (търсачка) - това е автоматична програма, която е в състояние да посетите милионите уеб страници бързо навигиране в интернет без намесата на оператор. Bots са непрекъснато сканиране пространство на World Wide Web, намирането на нови уеб страници и редовно посещават вече индексирани. Други имена за обхождане на мрежата паяци, роботи, ботове.

Защо търсачката паяци

Основните функции, които изпълняват търсачката паяци - уеб страници, индексирани, както и текст, изображения, аудио и видео файлове, които са на тях. Роботите проверяват референции, огледало сайтове (копия) и актуализации. Роботите също изпълняват HTML код за контрол на стандартите за съответствие на Световната организация, която разработва и внедрява технологични стандарти за World Wide Web.

Какво е индексиране, и защо е необходим

Индексирането - е, всъщност, е процесът на посещението на дадена уеб страница от търсачките. Програмата сканира текста на този сайт, снимки, видео, изходящи връзки, а след това на страницата се появява в резултатите от търсене. В някои случаи, сайтът не може да се сканира автоматично, а след това може да се добави към търсачката ръчно уеб администратори. Обикновено това се случва в отсъствието на външни връзки в конкретна (често едва наскоро създаден) страница.

Как търсачката паяци

Всяка търсачка има своя собствена бот с робот за търсене на Google, може да варира значително в зависимост от механизма работи по подобна програма, "Яндекс" или други системи.

Като цяло, принцип на работа робот е както следва: на програмата "идва" на площадката и външни връзки от главната страница ", гласи" Уеб ресурси (включително тези, които търсят режийни, че не вижда потребителя). Лодка е как да се придвижвате между страниците на даден сайт и да се премести на други хора.

Програмата ще избере кой сайт да индексира? По-често, отколкото не "пътуване" паякът започва с новинарски сайтове или големи директории ресурси и на групи с голям справка тегло. Верижен непрекъснато сканира страниците една по една върху скоростта и последователността на индексиране на следните фактори:

  • Вътрешни: perelinovka (вътрешни връзки между страниците на един и същ ресурс), размер на сайта, правилния код, и така нататък лесен за употреба;
  • Външно: общата граница за тегло, което води до сайта.

Първото нещо, което търси търсене роботи за всеки сайт от robots.txt. индексиране Допълнителна ресурс се извършва въз основа на получената информация е от този документ. Този файл съдържа конкретни указания за "паяци", които могат да увеличат шансовете за посещения на страници от търсачките, и, следователно, за да се постигне ранен хит място в "Яндекс" или Google.

Програма Аналози на роботите

Често терминът "търсене робот" се бърка с интелигентен, ползвател или автономни агенти, "мравки" или "червеи". Потопен значителни разлики само в сравнение с агенти, други определения се отнасят за подобни видове роботи.

Например, средства могат да бъдат:

  • интелектуалната: на програмата, които са преместени от сайт на сайт, независимо вземане на решение как да се процедира; те не са много чести в Интернет;
  • Автономна: Тези средства помагат на потребителя при избора на продукт, търсене, или попълване на формуляри, така наречените филтри, които са малко, свързани с мрежата програми.
  • потребител: програмата допринесе за взаимодействие на потребителя с World Wide Web, браузър (например, Opera, IE, Google Chrome, Firefox), пратеници (Viber, телеграма) или програми за електронна поща (MS Outlook и Qualcomm).

"Мравки" и "червеи" са по-близки до търсачката "паяци" на. Първата форма между мрежа и последователно да си взаимодействат по този мравуняк, "червеи" е в състояние да възпроизведе и в други отношения същите като стандартната робота.

Разнообразие от търсачките

Разграничаване между много видове роботи. В зависимост от целта на програмата, те са:

  • "Огледало" - Дубликати разглеждат уебсайтове.
  • Mobile - фокус върху мобилните версии на уеб страници.
  • Бързо - определи новата информация своевременно, като разгледате най-новите актуализации.
  • Референтен - референтен индекс, разчитаме на техния брой.
  • Индексатори различни типове съдържание - конкретни програми за текст, аудио, видео, изображения.
  • "Spyware" - търсене на страници, които все още не са показани в търсачката.
  • "Кълвача" - периодично да посещавате сайтове, за да се провери тяхната адекватност и ефективност.
  • Национален - сърфирате в интернет ресурси, разположени на една от областите на страната (например, .mobi, или .kz .ua).
  • Global - индекс на всички национални обекти.

Роботи големи търсачки

Има и някои търсачките. На теория, тяхната функционалност, може да варира в широки граници, но на практика програмите са почти идентични. Основните разлики индексират уеб страници Роботи две големи търсачки са както следва:

  • Строгостта на тестване. Смята се, че механизмът на робота "Яндекс" донякъде строги оценки на сайта за привеждане в съответствие със стандартите на World Wide Web.
  • Запазване на целостта на обекта. Индексите на Google при обхождането на целия сайт (включително медийно съдържание), "Яндекс" също могат да видят съдържанието избирателно.
  • тестови Speed нови страници. Google добавя нов ресурс в резултатите от търсенето в рамките на няколко дни, в случай на "от Yandex" процес може да отнеме две седмици или повече.
  • Честотата на повторно индексиране. Робот "Яндекс" проверява за актуализации два пъти седмично, и Google - един на всеки 14 дни.

Интернет, разбира се, не се ограничава до двете търсачки. Други търсещи машини имат своите роботи, които следват собствените си параметри за индексиране. В допълнение, има няколко "паяци", които са предназначени не големи ресурси за търсене и индивидуални екипи или уебмастъри.

погрешни схващания

Противно на общоприетото схващане, "паяци" не обработват информацията. Програмата сканира само и съхранява уеб страници и по-нататъшна обработка отнема съвсем различни роботи.

Също така, много потребители смятат, че търсачката паяци да има отрицателно въздействие и "вредно" Интернет. В действителност, някои версии на "паяци" може значително да претоварват сървъра. Има и човешки фактор - уебмастъра, който е създал програмата, може да направи грешки в конфигурацията на робот. И все пак повечето от съществуващите програми са добре проектирани и професионално управление, както и всички възникващи проблеми незабавно премахнати.

Как да се справим индексирането

Роботите на търсещите машини са автоматизирани програми, но индексирането може да бъде частично контролирани от уебмастера. Това много помага външно и вътрешно оптимизиране на ресурса. В допълнение, можете ръчно да добавите нов сайт на търсачката: големи ресурси имат специална форма на регистрация на уеб страници.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 bg.delachieve.com. Theme powered by WordPress.