上期文章说了关于AI和搜索引擎的关系,中间其实留了一个坑,但是是隐形的,那就是蜘蛛和AI的事情,但是我今天更想说说让人有喜欢又不喜欢的蜘蛛。
说起蜘蛛,对于老站长来说肯定是有喜欢又不喜欢的,喜欢是因为搜索引擎来抓取我们的文章内容,这样搜索引擎更容易放出来,但是不喜欢是因为有的蜘蛛一抓取的流量太大了。如果站长的服务器是一个小网站,那么很容易崩掉的(虽然菩提博客现在依旧没有被抓取的奔溃过)~~~
那么我们今天就说说什么是蜘蛛,那么和蜘蛛联系的有什么技术,还有就是其中有什么有趣的事情,最后就是AI大模型和蜘蛛有什么关系。这篇文章一次给你讲清楚~~~
首先我们先聊聊,什么是蜘蛛,那么这个事情需要追溯到很久之前了。当谷歌百度起来的时候,他们如何去抓取网页去展示呢?他们就利用爬虫,爬取每一个网页,我们来说一个简单的例子来证明这个事情
比如下面的样式 就是抓取了菩提网络博客的首页
import requests
# 修正:requests需调用具体方法(如get),并添加请求头模拟浏览器
url = 'https://www.1023.blog'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
try:
# 发送GET请求,设置超时时间(建议不超过10秒)
response = requests.get(url, headers=headers, timeout=10)
# 检查响应状态码(200表示成功)
if response.status_code == 200:
# 设置正确的响应编码(根据实际情况调整,此处假设为utf-8)
response.encoding = 'utf-8'
print(response.text)
else:
print(f"请求失败,状态码:{response.status_code}")
except requests.exceptions.RequestException as e:
print(f"请求异常:{e}")
except Exception as e:
print(f"其他错误:{e}")
最后打印出来的就说html页面,那么搜索引擎接下来干的事情就是把问题提取出来 按照一定是索引存起页面来,当用户搜索关键词到时候进行匹配,如果存在的话,那么放出网页,展示给用户。当然这都是后话,如何去让搜索引擎展示的更多,涉及到另外一个技术SEO。
接下来我们说的是那么蜘蛛对于网站看起来全部很好呀,但是其实你不知道的是,蜘蛛的威力要远远大于你想想的,当初博客园就是因为蜘蛛太多了!!!导致不得不屏蔽百度的蜘蛛,
原文参考链接https://www.cnblogs.com/cmt/p/17833993.html
那么AI和蜘蛛的关系也是很重要的,ai去查询信息总得去全网进行检索寻找,但是站长很难受,很简单,就是因为AI的任何无论API还是客户端,好点的给你展示一下你网站的链接,不好的话 根据不展示,直接那你数据就去训练模型了。也许你看到这篇文章的时候。我写的话已经提供AI去训练了,于是越来越多的网站选择要不去设置robots.txt(更加类似君子协定)要不干脆数据专门给蜘蛛留一块地方。
评论 (0)