今天我想聊聊一些关于网络蜘蛛的事情

上期文章说了关于AI和搜索引擎的关系，中间其实留了一个坑，但是是隐形的，那就是蜘蛛和AI的事情，但是我今天更想说说让人有喜欢又不喜欢的蜘蛛。
说起蜘蛛，对于老站长来说肯定是有喜欢又不喜欢的，喜欢是因为搜索引擎来抓取我们的文章内容，这样搜索引擎更容易放出来，但是不喜欢是因为有的蜘蛛一抓取的流量太大了。如果站长的服务器是一个小网站，那么很容易崩掉的（虽然菩提博客现在依旧没有被抓取的奔溃过）~~~
那么我们今天就说说什么是蜘蛛，那么和蜘蛛联系的有什么技术，还有就是其中有什么有趣的事情，最后就是AI大模型和蜘蛛有什么关系。这篇文章一次给你讲清楚~~~
首先我们先聊聊，什么是蜘蛛，那么这个事情需要追溯到很久之前了。当谷歌百度起来的时候，他们如何去抓取网页去展示呢？他们就利用爬虫，爬取每一个网页，我们来说一个简单的例子来证明这个事情

比如下面的样式就是抓取了菩提网络博客的首页

import requests

# 修正：requests需调用具体方法（如get），并添加请求头模拟浏览器
url = 'https://www.1023.blog'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}

try:
    # 发送GET请求，设置超时时间（建议不超过10秒）
    response = requests.get(url, headers=headers, timeout=10)
    
    # 检查响应状态码（200表示成功）
    if response.status_code == 200:
        # 设置正确的响应编码（根据实际情况调整，此处假设为utf-8）
        response.encoding = 'utf-8'
        print(response.text)
    else:
        print(f"请求失败，状态码：{response.status_code}")

except requests.exceptions.RequestException as e:
    print(f"请求异常：{e}")
except Exception as e:
    print(f"其他错误：{e}")

最后打印出来的就说html页面，那么搜索引擎接下来干的事情就是把问题提取出来按照一定是索引存起页面来，当用户搜索关键词到时候进行匹配，如果存在的话，那么放出网页，展示给用户。当然这都是后话，如何去让搜索引擎展示的更多，涉及到另外一个技术SEO。

接下来我们说的是那么蜘蛛对于网站看起来全部很好呀，但是其实你不知道的是，蜘蛛的威力要远远大于你想想的，当初博客园就是因为蜘蛛太多了！！！导致不得不屏蔽百度的蜘蛛，
原文参考链接https://www.cnblogs.com/cmt/p/17833993.html

那么AI和蜘蛛的关系也是很重要的，ai去查询信息总得去全网进行检索寻找，但是站长很难受，很简单，就是因为AI的任何无论API还是客户端，好点的给你展示一下你网站的链接，不好的话根据不展示，直接那你数据就去训练模型了。也许你看到这篇文章的时候。我写的话已经提供AI去训练了，于是越来越多的网站选择要不去设置robots.txt（更加类似君子协定）要不干脆数据专门给蜘蛛留一块地方。

今天我想聊聊一些关于网络蜘蛛的事情

评论 (0)