Компютри, Програмиране
Какво е е робот? верижен инструмент "Яндекс" и Google
Всеки ден в интернет има огромно количество нови материали, за да се създаде уеб сайт се обновява старите уеб страниците, да качвате снимки и видеоклипове. Без скрити от търсачките не могат да бъдат намерени в World Wide Web, нито един от тези документи. Алтернативи като роботизирани програми във всеки даден момент не съществува. Какво е робот за търсене, защо го и се нуждаят как да работят?
Какво е робот търсене
Верижен сайт (търсачка) - това е автоматична програма, която е в състояние да посетите милионите уеб страници бързо навигиране в интернет без намесата на оператор. Bots са непрекъснато сканиране пространство на World Wide Web, намирането на нови уеб страници и редовно посещават вече индексирани. Други имена за обхождане на мрежата паяци, роботи, ботове.
Защо търсачката паяци
Основните функции, които изпълняват търсачката паяци - уеб страници, индексирани, както и текст, изображения, аудио и видео файлове, които са на тях. Роботите проверяват референции, огледало сайтове (копия) и актуализации. Роботите също изпълняват HTML код за контрол на стандартите за съответствие на Световната организация, която разработва и внедрява технологични стандарти за World Wide Web.
Какво е индексиране, и защо е необходим
Индексирането - е, всъщност, е процесът на посещението на дадена уеб страница от търсачките. Програмата сканира текста на този сайт, снимки, видео, изходящи връзки, а след това на страницата се появява в резултатите от търсене. В някои случаи, сайтът не може да се сканира автоматично, а след това може да се добави към търсачката ръчно уеб администратори. Обикновено това се случва в отсъствието на външни връзки в конкретна (често едва наскоро създаден) страница.
Как търсачката паяци
Всяка търсачка има своя собствена бот с робот за търсене на Google, може да варира значително в зависимост от механизма работи по подобна програма, "Яндекс" или други системи.
Като цяло, принцип на работа робот е както следва: на програмата "идва" на площадката и външни връзки от главната страница ", гласи" Уеб ресурси (включително тези, които търсят режийни, че не вижда потребителя). Лодка е как да се придвижвате между страниците на даден сайт и да се премести на други хора.
Програмата ще избере кой сайт да индексира? По-често, отколкото не "пътуване" паякът започва с новинарски сайтове или големи директории ресурси и на групи с голям справка тегло. Верижен непрекъснато сканира страниците една по една върху скоростта и последователността на индексиране на следните фактори:
- Вътрешни: perelinovka (вътрешни връзки между страниците на един и същ ресурс), размер на сайта, правилния код, и така нататък лесен за употреба;
- Външно: общата граница за тегло, което води до сайта.
Първото нещо, което търси търсене роботи за всеки сайт от robots.txt. индексиране Допълнителна ресурс се извършва въз основа на получената информация е от този документ. Този файл съдържа конкретни указания за "паяци", които могат да увеличат шансовете за посещения на страници от търсачките, и, следователно, за да се постигне ранен хит място в "Яндекс" или Google.
Програма Аналози на роботите
Често терминът "търсене робот" се бърка с интелигентен, ползвател или автономни агенти, "мравки" или "червеи". Потопен значителни разлики само в сравнение с агенти, други определения се отнасят за подобни видове роботи.
Например, средства могат да бъдат:
- интелектуалната: на програмата, които са преместени от сайт на сайт, независимо вземане на решение как да се процедира; те не са много чести в Интернет;
- Автономна: Тези средства помагат на потребителя при избора на продукт, търсене, или попълване на формуляри, така наречените филтри, които са малко, свързани с мрежата програми.
- потребител: програмата допринесе за взаимодействие на потребителя с World Wide Web, браузър (например, Opera, IE, Google Chrome, Firefox), пратеници (Viber, телеграма) или програми за електронна поща (MS Outlook и Qualcomm).
"Мравки" и "червеи" са по-близки до търсачката "паяци" на. Първата форма между мрежа и последователно да си взаимодействат по този мравуняк, "червеи" е в състояние да възпроизведе и в други отношения същите като стандартната робота.
Разнообразие от търсачките
Разграничаване между много видове роботи. В зависимост от целта на програмата, те са:
- "Огледало" - Дубликати разглеждат уебсайтове.
- Mobile - фокус върху мобилните версии на уеб страници.
- Бързо - определи новата информация своевременно, като разгледате най-новите актуализации.
- Референтен - референтен индекс, разчитаме на техния брой.
- Индексатори различни типове съдържание - конкретни програми за текст, аудио, видео, изображения.
- "Spyware" - търсене на страници, които все още не са показани в търсачката.
- "Кълвача" - периодично да посещавате сайтове, за да се провери тяхната адекватност и ефективност.
- Национален - сърфирате в интернет ресурси, разположени на една от областите на страната (например, .mobi, или .kz .ua).
- Global - индекс на всички национални обекти.
Роботи големи търсачки
Има и някои търсачките. На теория, тяхната функционалност, може да варира в широки граници, но на практика програмите са почти идентични. Основните разлики индексират уеб страници Роботи две големи търсачки са както следва:
- Строгостта на тестване. Смята се, че механизмът на робота "Яндекс" донякъде строги оценки на сайта за привеждане в съответствие със стандартите на World Wide Web.
- Запазване на целостта на обекта. Индексите на Google при обхождането на целия сайт (включително медийно съдържание), "Яндекс" също могат да видят съдържанието избирателно.
- тестови Speed нови страници. Google добавя нов ресурс в резултатите от търсенето в рамките на няколко дни, в случай на "от Yandex" процес може да отнеме две седмици или повече.
- Честотата на повторно индексиране. Робот "Яндекс" проверява за актуализации два пъти седмично, и Google - един на всеки 14 дни.
Интернет, разбира се, не се ограничава до двете търсачки. Други търсещи машини имат своите роботи, които следват собствените си параметри за индексиране. В допълнение, има няколко "паяци", които са предназначени не големи ресурси за търсене и индивидуални екипи или уебмастъри.
погрешни схващания
Противно на общоприетото схващане, "паяци" не обработват информацията. Програмата сканира само и съхранява уеб страници и по-нататъшна обработка отнема съвсем различни роботи.
Също така, много потребители смятат, че търсачката паяци да има отрицателно въздействие и "вредно" Интернет. В действителност, някои версии на "паяци" може значително да претоварват сървъра. Има и човешки фактор - уебмастъра, който е създал програмата, може да направи грешки в конфигурацията на робот. И все пак повечето от съществуващите програми са добре проектирани и професионално управление, както и всички възникващи проблеми незабавно премахнати.
Как да се справим индексирането
Роботите на търсещите машини са автоматизирани програми, но индексирането може да бъде частично контролирани от уебмастера. Това много помага външно и вътрешно оптимизиране на ресурса. В допълнение, можете ръчно да добавите нов сайт на търсачката: големи ресурси имат специална форма на регистрация на уеб страници.
Similar articles
Trending Now