İçerik çekme botu nedir, nasıl çalışır?
İçerik botu, genel olarak başka sitelerdeki içeriği kopyalayıp sizin sitenizde paylaşan yazılımlara verilen isimdir. Bu yazıda, bu botlarla ilgili bilmeniz gerekenleri ele aldık. Bu işi kimler yapar, nasıl yapar, neden yapar ve yapmalı mı? Bu botlar nasıl engellenir, engellenmeli mi?
İçerik botları aynı zamanda örümcek olarak da bilinir. Böyle denmesinin sebebi, internetin bir ağ olması ve bu botların da bu ağ üzerinde dolaşmasıdır, tıpkı bir örümcek gibi. Bu botlar, tıpkı robot olmayan internet kullanıcılarının tarayıcılarını açıp bir internet sitesine girmesi gibi, internet sitelerine girer ve siteden birtakım bilgileri alır. Peki, hangi bilgiyi alacaklarını nereden biliyorlar? Bu noktada biraz HTML'den bahsetmemiz gerekiyor.
HTML
HTML (HyperText Markup Language
), websitelerinin şeklini ve karakterini belirlemek, sitedeki bazı bölümlere anlam
yüklemek ve bölümlerin görünüşünü belirlemek için bölümleri birbirinden ayırmak için kullanılan bir dildir. İnternete
girmek için kullandığınız Chrome, Firefox, Safari, Edge, Opera ve Brave gibi tarayıcılar, sitelerin tarayıcınıza
gönderdiği HTML kodunu kullanarak sayfayı size gösterir. Bir HTML kodu örneğine bakalım:
1 2 3 4 5 6
<article> <h1>Yazı başlığı</h1> <p> Yazı içeriği </p> </article>
Yukarıdaki kodda, article
elementi, elementin içerisinde bir makale olduğunu belirtiyor. h1
(Heading 1
), makalenin
başlığı ve p
de paragraf anlamına geliyor. Bu durumda, içerik botu article
elementinin içindeki ilk h1
elementinin
makalenin başlığı olduğunu ve takip eden p
elementlerinin de makalenin içeriği olduğunu biliyor. Dolayısıyla,
elementlerin etiketlerini (article
, h1
ve p
gibi) ve bu elementlerin özniteliklerini kullanarak belirli
elementleri hedeflemek mümkün oluyor. Peki öznitelik nedir? Aşağıdaki kod parçasına bakalım:
1 2 3 4
<div> <span class="tarih">3 Ağustos 2022</span> <span class="etiketler">etiket 1, etiket 2</span> </div>
Yukarıdaki kodda, span
etiketinin yanında bulunan class
, bir özniteliği ifade ediyor. Örneğin, <span class="tarih">
kodunda, özniteliğin adı class
ve değeri de tarih
. Burada birbirini takip eden iki span
elementinden ilkini seçmek
için, class="tarih"
özniteliği hedeflenebilir. Dolayısıyla, öznitelikler de içerik botlarına hangi elementin içeriğini
almaları gerektiğini söylemede büyük bir rol oynuyor. Genel olarak, bu öznitelikler botların bu elementleri daha kolay
bulabilmesi için eklenmiyor. Bunların eklenmesindeki temel amaç, bu elementlerin tasarımını değiştirmek. CSS seçicileri
kullanarak, belli elementlerin rengini, boyutunu, çerçevesini ve birçok diğer özelliğini değiştirmek mümkün. Aslına
bakarsanız, elementlerin tasarımını değiştirme ihtiyacı, içerik botlarının işlerini oldukça kolaylaştırıyor. Çünkü,
tasarımı değiştirmek için eklenen öznitelikler, aslında belli bir anlama sahip elementleri ve birbirine benzeyen
elementleri bulmayı da içerik botları için oldukça kolay bir hale getiriyor.
Özetle, bir internet sayfasından belli bilgileri almasını istediğiniz içerik botlarına hangi elementlerin hangi bilgileri içerdiğini söylemeniz gerekiyor. Örneğin, "başlığı şu elementten, içeriği bu elementten ve etiketleri de şuradan al" demeniz gerekiyor. Peki bunu söylemeden bu işi yapmak mümkün mü? Evet, mümkün. Google, Bing, Yahoo, DuckDuckGo gibi arama motorları internette bulunan milyonlarca siteyi tek tek inceleyip içerik botlarına hangi elementin hangi bilgiyi içerdiğini söylemiyor. Bu uygulanabilir olmazdı. Bunun yerine, sayfada bulunan elementlerin etiketleri, konumları, yazı tipi büyüklükleri, içerikleri gibi birçok parametreyi hesaba katarak hangi bölümün ne anlama geldiğini olasılıksal olarak anlayan içerik botları kullanıyorlar. Tabii ki bu, her zaman doğru elementleri bulacakları anlamına gelmiyor. Mümkün olsaydı, her sayfadaki her içeriği manuel olarak etiketlerlerdi. Bu uygulanabilir olmadığı için, elden gelenin en iyisini otomatik olarak yapmaya çalışıyorlar. Buna ek olarak, HTML kodunda bulunan bazı önemli bölümlerin ne anlama geldiğini, bazı etiketleri ve bazı standart element özniteliklerini kullanarak içerik botlarına söylemeniz de mümkün. Dahası, sayfanın içerisine yapısal veri ekleyerek de, bu yapısal veriyi anlayabilen botların işini kolaylaştırabilirsiniz.
İçerik botlarını kimler kullanır?
Akla gelen ilk kategori, arama motorları. Arama motorları, içerik botları yardımıyla internet sitelerini inceleyip bir dizin oluşturur. Sayfaların içeriğinde bulunan linkleri takip ederek başka sayfaları da keşfederler. Bu şekilde linkleri takip ederek tüm internetin dizinini oluştururlar.
İçerik botlarını özel şirketler de kullanır. Örneğin, e-ticaret sitesi olan bir şirket, rakip e-ticaret sitesindeki fiyat değişimlerinden haberdar olmak isteyebilir. Bu durumda, rakip siteyi belli aralıklarla tarayan bir içerik botu kullanabilirler. Bu bot, fiyat değişimi olduğunda, şirkete bir e-posta göndererek şirketi bu durum hakkında bilgilendirebilir. Şirket de fiyat politikasında değişiklik yaparak rekabet gücünü artırabilir. Bu yöntem akla fiyat karşılaştırma sitelerini getiriyor. Bu siteler, farklı e-ticaret sitelerindeki ürünlerin detaylarını ve fiyatlarını belli aralıklarla içerik botları yardımıyla alarak, kullanıcılarına en uygun fiyatlı ürünü bulma imkanı sağlıyor.
İçerik botlarının bir başka kullanım şekli de, kendi sitenizdeki tüm sayfaları tarayıp bir dizin oluşturduktan sonra, siteye arama özelliği eklemek. Siteniz yalnızca blog yazılarından oluşmayabilir. Sitenizdeki tüm yazılar veritabanında da tutulmayabilir. Bu durumda yalnızca veritabanında arama yapmak, arama sonuçlarının sitenizde bulunan tüm içeriği kapsayamayacağı anlamına geliyor. Bunun yerine, sitenizdeki tüm sayfaları içerik botuyla tarayıp bir dizin oluşturmak daha mantıklı bir çözüm. Bu hizmeti sunan popüler araçlardan birisi Algolia.
İçerik botları aynı zamanda interneti arşivlemek amacıyla da kullanılabilir. Bu işi yapan en popüler site Internet Archive: Wayback Machine. Bu site, içerik botlarını kullanarak, belli aralıklarla internetteki sitelerin, tabiri caizse, fotoğraflarını çekiyor. Sitenin kullanıcıları, arşivlenmiş sitelerin eski hallerini görebiliyorlar. Bu sitenin tek kullanım şekli bu değil. Bir başka kullanım şekli de, bir nedenle internet sitelerini kaybetmiş kişilerin, sitelerindeki bilgilere bu site üzerinden ulaşabilmeleri. Hatta, bir başka içerik botu kullanarak, sitenizin arşivini bu siteden alabilir ve sitenizi yeniden eski haline getirebilirsiniz.
İçerik botları, ortaklık (affiliate
) yöntemiyle para kazanmak isteyenler tarafından kullanılır. Örneğin, Amazon'da
satılan ürünlerin tanıtımını yaparak, ürün satıldığında para kazanabilirsiniz. Bu durumda, Amazon'daki ürünleri tek tek
sitenize eklemek yerine, içerik botu yardımıyla bu işi yapabilirsiniz.
Blog sitesi teması geliştirenler de içerik botlarını kullanır. Örneğin, böyle bir site tasarlarken siteye birçok blog yazısı ekleyerek siteyi test etmek isteyebilirsiniz. Bu durumda, içerik botu kullanarak başka sitelerden blog yazılarını alıp kendi sitenizde yayınlayabilirsiniz.
İçerik botları aynı zamanda sitelerin kalite kontrolünü yapan geliştiriciler tarafından kullanılır. Örneğin, bir sayfada bir bilginin her zaman olması gerekiyorsa, site her güncellendiğinde bu bilginin varlığının teyit edilmesi gerekir. Bu iş, içerik botu yardımıyla otomatik olarak yapılabilir. İçerik botu sayfada o bilgiyi bulamazsa, ilgili kişiyi durum hakkında bilgilendirebilir. Dahası, bu botlar sayfa ile etkileşime geçebilir. Örneğin, butonlara tıklayıp formları doldurabilir. Bu botlar da sitenin etkileşimli özelliklerini test etmek amacıyla kullanılır.
İçerik botları, yapay zeka modellerini eğitmek için gereken verileri toplamak için, veri bilimi konusunda çalışan
kişiler tarafından kullanılır. Örneğin, ürünlere yazılan yorumların olumlu olup olmadığını anlamak için bir yapay zeka
modeli oluşturmak istiyorsanız, popüler e-ticaret sitelerinden kullanıcı yorumlarını içerik botlarıyla
toplayabilirsiniz. Daha sonra bu yorumları olumlu
ve olumsuz
olarak etiketledikten sonra, yapay zeka modelini
eğitebilirsiniz. Yalnızca doğal dil işleme alanında değil, görüntü ve video analizi için görselleri ve videoları
kaydetmek için de içerik botları kullanılabilir.
Örnekleri çoğaltmak mümkün. Özet olarak, içerik botları birçok alanda birçok amaçla kullanılabilir.
İçerik botları neden kullanılır?
İçerik botları, bir sitedeki veriye ulaşmanın daha kolay bir yolu olmadığında kullanılır. Aslında olması gereken, istenen bilgilerin hedef sitenin sağladığı bir API yardımıyla alınmasıdır. API ile elde edilen veri, programatik olarak işlenmesi kolay bir yapıya sahiptir. Örneğin, sitenin HTML kodunda tam olarak nerede olduğu belli olmayan başlığın, API ile elde edilen yapısal veride tam olarak nerede olduğu bellidir. Bir sitenin HTML kodu, yarı yapısal veri olarak nitelendirilebilir. Yarı yapısal veri ile çalışmak yerine yapısal veri ile çalışmak her zaman tercih edilir. Eğer yapısal veriye ulaşılamıyorsa, bu durumda daha az tercih edilebilir olan yarı yapısal veri tercih edilir.
Bir diğer tercih sebebi de, yapısal veri ile çalışmak için gereken teknik kabiliyetin eksikliği denebilir. Örneğin, hali hazırda rahatça ayarlarını yapabildiğiniz bir içerik botunuz varsa ve programlama konusunda yeterince iyi değilseniz, site size yapısal veri sunsa bile bu yapısal veriyi işlemek sizin için oldukça zordur. Bu durumda, zaten rahat bir şekilde kullanabildiğiniz içerik botunu kullanmayı tercih edersiniz.
İçerik botu nasıl yapılır?
İçerik botu bir yazılımdır. Dolayısıyla, içerik botları programlama dillerini kullanarak yapılır. Temel olarak, içerik botu bir internet sayfasına HTTP isteği gönderir, tıpkı bir tarayıcı (Chrome, Firefox, Safari vb.) gibi. İnternet sayfası da, HTML kaynak kodunu bu isteğe cevap olarak gönderir. Ardından, içerik botu bu HTML kodunun içinde bulunan veriyi alır. İstenen veriyi bulmak için de CSS seçici veya XPath seçiciler kullanılır. Veriyi bulmak için düzenli ifadeleri kullanan botlar da vardır, fakat bu yöntem, HTML kodu içerisinde veriyi bulmanın en zor yollarından biridir diyebiliriz. Eğer CSS seçici veya XPath seçici kullanılabiliyorsa, bu seçiciler tercih edilir. İçerik botları, her programlama dilinde yazılabilir.
İçerik botu yaparken dikkat edilmesi gereken noktalardan biri, hedef siteden istenen içeriğin JavaScript ile yüklenip yüklenmediğini anlamaktır. Eğer içerik JavaScript ile yükleniyorsa, bu durumda içerik botunuzun bir tarayıcı yardımıyla hedef siteye bağlanması gerekir. Temel olarak, içerik botu bir tarayıcıyı yönetir. Tarayıcıya hangi siteye girmesi gerektiğini söyler. Ardından, site tarayıcıda yüklendikten sonra, tarayıcı otomatik olarak JavaScript kodlarını çalıştırır. Daha sonra, içerik botu, sayfada istenen verinin yüklenip yüklenmediğini belli aralıklarla test eder. Bunu yapmasının sebebi, JavaScript ile yüklenen içeriğin tam olarak ne zaman sayfaya ekleneceğinin bilinememesidir. İstenilen içerik sayfaya eklendikten sonra, içerik botu tarayıcıdan bu veriyi almasını ve kendisine iletmesini ister. Chrome ve Firefox isimli tarayıcılar, kalite kontrol amacıyla kullanılması için, tarayıcıları programatik olarak kontrol edilebilir hale getirmişlerdir. İçerik botları da, tıpkı kalite kontrol yazılımları gibi, bu tarayıcıları programatik olarak kontrol ederek internet sitelerinden verileri alır.
Bir diğer önemli nokta ise alınan verinin istenilen formata dönüştürülmesidir. Yalnızca içeriği almak yeterli olmayabilir. Önemli olan, veriyi istenilen formatta almaktır. Örneğin, üç farklı siteden içerik alıyorsanız ve bu üç sitedeki yazıların yayımlanma tarihlerinin formatı birbirinden farklıysa, bu tarihleri kendi sitenizde kullandığınız veya veriyi kullanacak aracın istediği formata dönüştürmeniz gerekir.
İçerik botunun ayarlarını yaparken, içeriğini aldığınız sitenin tasarımı konusunda kontrol sahibi olmadığınızı aklınızın
bir kenarında bulundurmalısınız. Örneğin, sitedeki yazının başlığı yarın HTML kodunun farklı bir bölümünde olabilir.
Hedef sitenin tasarım değişikliklerinden etkilenmemek için, CSS veya XPath seçiciler mümkün olduğunca az değişken
içerecek şekilde oluşturulmalıdır. Örneğin, yazıların başlığı genel olarak h1
elementinin içerisine yazılır. Hedef
sitenin bu elementi başka bir elementle değiştirme ihtimali oldukça düşük. Bu gibi püf noktaları da birçok siteden
içerik çekerken zamanla öğrenirsiniz. Önemli olan, sitede olmasını beklediğiniz bir veri olmadığı zaman, botun sizi
bu durum hakkında bilgilendirmesi ve çalışmayı durdurma kabiliyetine sahip olmasıdır. Her ne kadar h1
elementinin
başka bir element ile değiştirilmesinin ihtimali düşük olsa da, bu ihtimal hiçbir zaman sıfır değil. Neticede bu, hedef
sitenin tasarımını yapan kişinin karar verme mekanizması ile ilgili bir durum.
Bu yazının amacı daha çok içerik botlarıyla ilgili temel bilgileri vermek ve botların mantığını açıklamak olduğu için, bu yazıda içerik botunun kodlamasının nasıl yapıldığından bahsetmiyoruz. Dilerseniz, içerik botlarının kodlamasının nasıl yapıldığını anlatan yazılı ve videolu anlatımları internette bulabilirsiniz.
İçerik botu kullanılmalı mı, kullanmak suç mu, etik mi, kullanmanın sonuçları neler?
İçerik botu kullanımı konusundaki en büyük endişelerden biri, bunun yasal olup olmadığıdır. Aslına bakarsanız, Nisan 2022'de Amerika'da sonuçlanan bir davada, içerik botlarını kullanarak halka açık bilgilerin toplanmasının yasal olduğuna karar verildi. Davayı LinkedIn, kullanıcıların herkese açık kişisel bilgilerini toplayan rakip şirketi engellemek için açmıştı. Fakat, davanın sonucu LinkedIn'i memnun etmediği gibi, uzun zamandır tartışılan, içerik toplamanın yasal olup olmadığı konusuna da bir açıklık getirmiş oldu. Yani, bir sitedeki bilgiler herkese açıksa, bu bilgilerin içerik botları tarafından alınması için siteden izin istemeye gerek olmadığına karar verildi. Bu kararın Amerika'da alındığını, her ülkenin kendi kanunları olduğunu ve bu kararın başka ülkelerde geçerli olmadığını da belirtelim. Fakat, Amerika gibi bir ülkede böyle bir kararın alınması, diğer ülkeleri de etkileyecektir. Şuna da dikkati çekmek gerek, bu karar, halka açık içeriği toplamanın yasal olduğunu söylüyor. Bu bilginin kullanılma şeklinin yasal olup olmadığı konusunda bir fikir beyan etmiyor. Örneğin, bir kullanıcının profil fotoğrafını, ismini ve çalıştığı şirketleri içerik botu ile alıp kendi sitenizde gösterdiğinizde bir telif hakkı endişesi oluşmuyor. Fakat, bir sitede bulunan bir makaleyi izinsiz alıp kendi sitenizde yayınlamanız, bir telif hakkı sorunu oluşturabilir. Yani, içeriği almak yasal, fakat içeriğin telif hakkı varsa, kullanmak yasal değil. Bir diğer örnek olarak da fiyat karşılaştırma sitesi oluşturmak için, farklı e-ticaret sitelerinde bulunan halka açık ürün bilgilerini toplamak verilebilir. Ürünlerin adını ve içlerinde bulunan maddelerin miktarlarını alıp yayınlamak yasal, fakat fotoğrafları telif hakkına tabi olabilir. Bir başka örnek de bu bilgilerin yapay zeka modellerini eğitmek amacıyla kullanılması. Telif hakkına tabi bilgilerle bir yapay zeka modeli eğitebilirsiniz, fakat modelin tahminleri arasında telif hakkına tabi olan içerik bire bir olarak yayınlanıyorsa, bunu yapmak yasal olmayabilir.
Bu konudaki bir diğer önemli soru da içerik botu kullanımının etik (veya ahlaki) olup olmaması. Birtakım halka açık telif hakkına tabi olmayan bilgileri bir siteden yasal olarak aldıktan sonra, bu bilgileri kullanmak etik mi? Etik konusu biraz çetrefilli bir konu. Örneğin, LinkedIn'in davasını ele alalım. LinkedIn, kullanıcıların kişisel bilgilerini doğrudan kullanıcılardan alıyorsa, başka bir siteden halka açık bilgileri toplayarak almıyorsa, bu durumda bu bilgilerin LinkedIn'e ait olduğu, kullanma izninin de LinkedIn tarafından verilmesi gerektiği ve izinsiz kullanımın etik olmadığı söylenebilir. Peki gerçekten öyle mi? Kullanıcıların ismi, çalıştığı şirketlerin isimleri ve yaptığı paylaşımlar, gerçekten LinkedIn'e mi ait? LinkedIn, kullanıcı sözleşmesinde bu bilgilerin kendisine ait olduğunu onaylamanızı istese bile, bu gerçekten böyle mi? Büyük ihtimalle böyle değil. Kullanıcının kişisel bilgileri, adı üzerinde, kullanıcının. Peki, LinkedIn bu verileri halka açık olarak, arama motorları sonuçlarında görünebilmek için paylaşıyorsa, bu durumda içerik botunu arama motorundan farklı kılan nedir? Eğer LinkedIn yalnızca belli arama motorlarının bu içeriği almasına izin veriyorsa, bu rekabet ortamı için faydalı mıdır? Örneğin, yalnızca Google ve Bing gibi büyük arama motorlarının interneti tarama hakkı olması, küçük arama motorlarının büyümesini engellemez mi? LinkedIn örneğinde, bu bilgilerin içerik botları ile alınmasından çok, LinkedIn'in kullanıcıların verilerini halka açık olarak paylaşması etik değilmiş gibi duruyor.
Peki, içerik botu kullanılmalı mı, kullanmanın sonuçları neler? İçerik botları, kullanmanın yasal ve etik olduğu
durumlarda kullanıldığında, olumsuz bir sonuç doğurmaz. Yasal olmadığı durumlarda, suç işlendiği için birçok olumsuz
sonucu olacaktır. Yasal olduğu ve etik olmadığı durumlarda da, olay daha çok sizin vicdanınıza kalıyor. Bot kullanmanın
sonuçlarından bahsederken, arama motorları tarafından çöp içerik (spam
) sitesi veya kopya site olarak işaretlenme
durumundan da bahsetmek gerek. Arama motorları, kullanıcının karşısına kopya içerik çıkarmak istemez. Dolayısıyla, eğer
siz bir sitedeki tüm organik içeriği alıp kendi sitenizde yayınlıyorsanız, arama motoru da bunun farkındaysa, sizin
sitenizi sonuçlar arasında göstermeyi bırakacaktır. Böyle bir durumda büyük ihtimalle telif hakkına tabi olan içerikleri
alıp yayınladığınız için, bu yaptığınız yasal da olmayacaktır. Sonuç olarak, böyle bir işe girişmeden önce,
hedeflerinizin tam olarak ne olduğunu belirlemek, içeriğin telif hakkına tabi olmadığından emin olmak, arama
motorlarının sonuçlarında görünmeyi engelleyen etkenleri bilmek ve içerik toplama işini bunlar doğrultusunda yapmak
gerekir.
İçerik botları nasıl engellenir?
Bu botları engellemenin birçok yolu vardır. Fakat, kesin olarak engellemek mümkün olmayabilir.
Engelleme yöntemlerinden biri IP adresi engellidir. Eğer sitenizi tarayan bir botu engellemek istiyorsanız, bu botun
IP adresinin sunucunuza erişmesini engelleyebilirsiniz. Fakat, IP adresi engellenen bir bot, aracı (proxy
) sunucular
kullanarak her seferinde farklı bir IP adresi üzerinden sunucunuza bağlanabilir. Bu durumda, bu IP adreslerinin hepsini
engellemeniz gerekecektir.
Bir diğer yöntem, botların sunucunuza yaptıkları isteklere ekledikleri üstbilgileri kullanmak. Arama motoru botları gibi
bot olduğunu gizlemeyen botlar, bot olduklarını, yaptıkları isteklere ekledikleri User-Agent
üstbilgisi aracılığıyla
beyan ederler. Örneğin, Google botlarının User-Agent
üstbilgisinde genel olarak Googlebot
sözcüğü geçer. Google,
kullandığı User-Agent
değerlerini açıkça paylaşır.
Dolayısıyla, User-Agent
üstbilgisinde belli sözcükler geçen botları engelleyebilirsiniz. Fakat, her bot, bot olduğunun
bilinmesini istemeyebilir. Bu botlar, User-Agent
üstbilgisinde de normal bir internet kullanıcısının göndereceği
türden bir değer gönderir. Bu durumda, bu botları bu üstbilgi aracılığıyla ayırt etmeniz mümkün olmayacaktır.
Botları engellemenin bir başka yolu da, sunucunuza istek yapıldığında JavaScript'in aktif olup olmadığını test etmektir. İçerik botları genellikle JavaScript kodunu çalıştırmazlar. Bunun nedeni, bunu yapabilmek için Chrome ve Firefox gibi bir tarayıcı çalıştırma gereksinimidir. Tarayıcı çalıştırmak da daha güçlü sunucuların kullanılmasını gerektirir. Bu da botu çalıştırmanın maliyetinin artması anlamına gelir. Dolayısıyla, her bot JavaScript çalıştırmaz. Bu tür botları teşhis edebilmek için, sitenize istek yapıldığında, bir sayfanın içeriğini doğrudan göstermek yerine, JavaScript kodu çalıştıran bir sayfayı gösterirsiniz. Eğer bu sayfa JavaScript kodu kullanarak sayfayı asıl istenen sayfaya yönlendirebilirse, isteği yapan kullanıcı da sayfanın içeriğini görebilir. Dahası, JavaScript'i test eden bu sayfalara aynı zamanda kişinin robot olmadığını onaylayan testler de ekleyebilirsiniz. Bu testlerden en popüleri Google reCAPTCHA. İstenen sayfa ile istek yapan kullanıcı arasına böyle bir sayfa eklediğinizde, JavaScript çalıştıramayan ve bot olmama testini geçemeyen botlar da asıl sayfayı göremezler. Peki, bu sayfa gerçek kullanıcıları rahatsız etmez mi? Evet, eder. Fakat bu sayfayı her istekte kullanıcıya göstermezsiniz. Örneğin, kullanıcının testi geçmesi durumunda, kullanıcının IP adresini 15 dakika gibi bir süre boyunca güvenli olarak işaretleyebilirsiniz. Bu süre boyunca da kullanıcı bu test sayfasını görmeden sitenizde gezinebilir. Peki bu sayfanın varlığı, arama motorlarını da engellemez mi? Evet, engeller. Böyle bir engelleme mekanizması kullanıyorsanız, arama motorlarına izin vermenin de bir yolunu bulmalısınız. Fakat, diğer içerik botları, sizin izin verdiğiniz arama motorlarını taklit edebilirler. Bunun olması durumunda, elinizden gelenin en iyisini yaparak, gelişmiş olmayan botları engellemiş olursunuz. Buradaki ikilem, yalnızca belirli botlara izin vermek istemektir. Fakat, izin verilmeyen botlar, izin verilen botları taklit etme yeteneğine sahip olabilirler.
Bir başka yöntem de, sitenizdeki tüm içeriği, kullanıcı oturum açtıktan sonra göstermektir. Genel olarak, bir sitede oturum açtığınızda, bu site sizin bilgisayarınıza birtakım çerezler bırakır. Daha sonra bu siteyi tekrar ziyaret ettiğinizde, siteye yapılan isteğe, bilgisayarınızda bulunan çerezler de eklenir. Site de bu çerezleri kullanarak sizin için tekrar oturum açar. Böylece hiç oturumu kapatmamış gibi siteyi ziyaret etmeye devam edersiniz. Böyle bir çözümün uygulanması durumunda, arama motorları sitenizde oturum açmayacağı için, siteniz arama motorları sonuçlarında görünmeyecektir. Aksine, başka içerik botları, yaptıklara isteklerle birlikte sitenize kayıtlı bir kullanıcının çerezlerini göndererek sitenizde oturum açabilir ve sitenizdeki bilgilere ulaşabilir. Dolayısıyla, tüm içeriği bir oturum açma mekanizması arkasına koymak sizin için zararlı olabilir.
Kısacası, sitenizin arama motorları tarafından taranmasına izin veriyorsanız, başka botlar da sitenizdeki verilere bir şekilde ulaşabilir. Aldığınız birtakım önlemlerle, istenmeyen içerik botlarının işini zorlaştırırsınız. Eğer içerik botları yeterince inatçı değilse, pes edeceklerdir. Eğer inatçılarsa, sitenizdeki içeriğe bir şekilde ulaşacaklardır. Yani, içeriğin alınmasını istemiyorsanız, istisnasız olarak hiçbir bota izin vermemelisiniz.
Sonuç
Bu yazıda içerik botlarının nasıl çalıştığından, varlıklarının nedenlerinden, kullanımlarının yasal ve etik olup olmamasından ve bu botları engelleme yöntemlerinden bahsettik. İçerik botu kullanımının siyah ve beyaz gibi iki keskin uçtan değil, gri alanlardan da oluştuğunu gösterdik. Umarız içerik botları konusunda daha detaylı bilgilere ulaşmanız için temel bilgileri edindiğiniz bir okuma olmuştur.