首页
关于
在线观影
数据统计
在线直播
在线壁纸
更多
友情链接
Search
1
宝塔9.6.0开心版本 - 破解版 - 无后门版本
297 阅读
2
如何免费利用授权服务器(License Server)激活Jetbrains全家桶
130 阅读
3
TVbox最新4K源分享
91 阅读
4
欢迎使用 Typecho
76 阅读
5
记录一次网站的崩溃历史!
69 阅读
C/C++
Python
技术分享
前端项目学习
Vue
日常分享
八股文面试
科技闲聊
登录
/
注册
Search
标签搜索
苹果cms
蜘蛛
tvbox
苹果cms问题
苹果cmsseo
RSS订阅
Vue学习
RSS
tvbox官网
LLM
大语言模型
DeepSeek
订阅教程
海绵博客
蒸馏模型
Django
线性列表
影视网站
前后端不分离项目
Python
小菩提
累计撰写
110
篇文章
累计收到
15
条评论
首页
栏目
C/C++
Python
技术分享
前端项目学习
Vue
日常分享
八股文面试
科技闲聊
页面
关于
在线观影
数据统计
在线直播
在线壁纸
友情链接
搜索到
29
篇与
的结果
2025-05-25
今天我想聊聊一些关于网络蜘蛛的事情
上期文章说了关于AI和搜索引擎的关系,中间其实留了一个坑,但是是隐形的,那就是蜘蛛和AI的事情,但是我今天更想说说让人有喜欢又不喜欢的蜘蛛。说起蜘蛛,对于老站长来说肯定是有喜欢又不喜欢的,喜欢是因为搜索引擎来抓取我们的文章内容,这样搜索引擎更容易放出来,但是不喜欢是因为有的蜘蛛一抓取的流量太大了。如果站长的服务器是一个小网站,那么很容易崩掉的(虽然菩提博客现在依旧没有被抓取的奔溃过)~~~那么我们今天就说说什么是蜘蛛,那么和蜘蛛联系的有什么技术,还有就是其中有什么有趣的事情,最后就是AI大模型和蜘蛛有什么关系。这篇文章一次给你讲清楚~~~首先我们先聊聊,什么是蜘蛛,那么这个事情需要追溯到很久之前了。当谷歌百度起来的时候,他们如何去抓取网页去展示呢?他们就利用爬虫,爬取每一个网页,我们来说一个简单的例子来证明这个事情 比如下面的样式 就是抓取了菩提网络博客的首页import requests # 修正:requests需调用具体方法(如get),并添加请求头模拟浏览器 url = 'https://www.1023.blog' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36' } try: # 发送GET请求,设置超时时间(建议不超过10秒) response = requests.get(url, headers=headers, timeout=10) # 检查响应状态码(200表示成功) if response.status_code == 200: # 设置正确的响应编码(根据实际情况调整,此处假设为utf-8) response.encoding = 'utf-8' print(response.text) else: print(f"请求失败,状态码:{response.status_code}") except requests.exceptions.RequestException as e: print(f"请求异常:{e}") except Exception as e: print(f"其他错误:{e}")最后打印出来的就说html页面,那么搜索引擎接下来干的事情就是把问题提取出来 按照一定是索引存起页面来,当用户搜索关键词到时候进行匹配,如果存在的话,那么放出网页,展示给用户。当然这都是后话,如何去让搜索引擎展示的更多,涉及到另外一个技术SEO。接下来我们说的是那么蜘蛛对于网站看起来全部很好呀,但是其实你不知道的是,蜘蛛的威力要远远大于你想想的,当初博客园就是因为蜘蛛太多了!!!导致不得不屏蔽百度的蜘蛛,原文参考链接https://www.cnblogs.com/cmt/p/17833993.html那么AI和蜘蛛的关系也是很重要的,ai去查询信息总得去全网进行检索寻找,但是站长很难受,很简单,就是因为AI的任何无论API还是客户端,好点的给你展示一下你网站的链接,不好的话 根据不展示,直接那你数据就去训练模型了。也许你看到这篇文章的时候。我写的话已经提供AI去训练了,于是越来越多的网站选择要不去设置robots.txt(更加类似君子协定)要不干脆数据专门给蜘蛛留一块地方。
2025年05月25日
21 阅读
0 评论
2 点赞
2025-05-24
TVbox最新4K源分享
TvBox最新源分享4k资源目前我推荐使用234影视的4k资源,保稳定的 https://tool.996321.xyz/test.json本源只保证在本文章发出去之前依旧有效果,接口全部源自网络,如果有任何侵权行为,联系我个人邮箱撤销改接口,本人仅仅做接口的搬运工Tvbox官方下载地址 https://tvbox.clbug.com/下载好就准备导入接口 http://suo.im/8023http://suo.im/wxerhttp://suo.im/mooyhttp://suo.im/fefehttp://suo.im/fafahttp://suo.im/lanshttp://suo.im/wonu影视仓:http://影视仓.com/肥猫接口:http://ceshi.肥猫.com/PandaQ肥猫备用接口:http://肥猫.com饭太硬接口:http://www.饭太硬.com/tv饭太硬(备用):http://fty.xxooo.cf/tv饭太硬(备用):http://fty.888484.xyz/tv毒盒:https://毒盒.com/tv小盒子4K:http://xhztv.top/4k.json公众号【爱TV吧】:https://哪吒.live/欧歌4K:http://tv.nxog.top/m欧歌免费:https://tv.nxog.top/m/111.php?ou=公众号欧歌app&mz=index&jar=index&123&b=tv蓝天Luck(央视大全):https://gitee.com/lukei7/lib/raw/Luck/%E8%87%AA%E5%BB%BA.json小米接口:http://www.mpanso.com/小米/DEMO.json王二小接口:http://tvbox.xn--4kq62z5rby2qupq9ub.top/公众号【王二小放牛娃】:http://tv.999888987.xyz南风接口:https://raw.githubusercontent.com/yoursmile66/TVBox/main/XC.json南风接口(代理):https://gh.aptv.app/https://raw.githubusercontent.com/yoursmile66/TVBox/main/XC.jsonOK吊炸天接口(使用【蜂蜜即FongMi】,其它空壳需要激活码):http://ok321.top/tvhttps://yydf.540734621.xyz/QQ/yydf2024.json巧技接口:http://cdn.qiaoji8.com/tvbox.json吃猫的鱼接口:https://d.kstore.dev/download/7213/吃猫的鱼欧歌单线路接口:https://xn--xkkx-rp5imh.v.nxog.top/api.php?id=3菜妮丝XBPQ接口:https://tv.xn--yhqu5zs87a.top摸鱼儿:http://我不是.摸鱼儿.com4K影视仓:http://4K4K.shop/天微科技:https://github.moeyy.xyz/https://raw.githubusercontent.com/vcloudc/tvbox/main/tw/api.json公众号【非凡小小】:https://g.3344550.xyz/https://raw.githubusercontent.com/jigedos/1024/master/jsm.json二月红接口:https://700sjro44343.vicp.fun/eggp/0211/tv.json公众号【挺好分享】:http://ztha.top/TVBox/thdjk.json公众号【蓝天日记】:https://gitee.com/lukei7/lib/raw/Luck/%E8%87%AA%E5%BB%BA.json传说blog:https://chuanshuo.77blog.cn/tv.json青龙:https://gitee.com/yiwu369/6758/raw/master/%E9%9D%92%E9%BE%99/1.json香雅情短剧:http://74.120.175.78/JK/XYQTVBox/dj.json短剧频道:http://box.ufuzi.com/tv/qq/短剧频道/api.json少儿频道:https://jihulab.com/ymz1231/xymz/-/raw/main/ymshaoer欧歌接口:https://xn--sdds-rp5imh.v.nxog.top/apitv.php?id=3俊哥接口:http://home.jundie.top:81/top98.json4K云盘接口:https://9xi4o.tk/0725.json巧儿接口:http://pandown.pro/tvbox/tvbox.json胖虎接口:https://notabug.org/imbig66/tv-spider-man/raw/master/%E9%85%8D%E7%BD%AE/0801.json巧技:http://pandown.pro/tvbox/tvbox.json黄金分割工作室:https://gitlab.com/lzc1021lzc/hjfggzs.hjys/-/raw/main/hjys.free.jsonocean2025:https://git.acwing.com/ocean2025/ocean/-/raw/main/api.json其他大佬接口:驸马影视:http://fmys.top/fmys.jsonhttp://www.fish2018.us.kg/p/jsm.jsonhttps://git.acwing.com/iduoduo/orange/-/raw/main/config.binhttps://ghproxy.net/https://raw.githubusercontent.com/xiaolinshao/linshao/main/1.jsonhttps://www.lintech.work/%E8%B6%85%E5%A4%A7%E6%9D%AF/main.jsonhttp://124.71.189.194/a.jsonhttp://meowtv.top/tvhttps://kjsc0310.github.io/tvy/jk9.jsonhttps://dxawi.github.io/0/0.jsonhttp://home.jundie.top:81/TVBox/yosakoi.jsonhttps://raw.liucn.cc/box/m.jsonhttps://wds.ecsxs.com/212757.jsonhttps://liu673cn.github.io/box/m.jsonhttps://pastebin.com/raw/gtbKvnE1https://cdn.jsdelivr.net/gh/GaiVmao/dianshiyuan@main/yuan2.txthttp://pandown.pro/tvbox/tvbox.jsonhttps://dxawi.github.io/0/0.json单仓地址:小盒子单仓:http://xhztv.top/xhz★潇洒单仓:https://9877.kstore.space/FourDS/api.json★开心单仓:http://kxrj.site:55★星辰单仓:http://47.99.102.252/dc.json★欧歌多线路:https://xn--occo-rp5imh.v.nxog.top/api.php?id=2多仓地址(适用于:影视仓.宝盒·蜂蜜/Ok影视):影视仓多仓:http://影视仓.com/duo哪吒多仓:https://哪吒.live/duo无邪多仓:https://gitee.com/wxej/wxrj/raw/master/wx.json小盒子多仓:http://xhztv.top/tvbox.txt蜗牛科技仓:https://tv.蜗牛.top/DS天天开心多仓:http://rihou.cc:55念心多仓:https://pz.nianxin.top/nxD.json拾光多仓:https://qixing.myhkw.com/DC.txt玩盒助手多仓:https://chuanshuo.77blog.cn/dc.json玩盒助手多仓备用:https://jihulab.com/chuanshuo/box/raw/main/duo神州多仓:http://m6z.cn/6pUcwV多多多仓:https://bitbucket.org/xduo/cool/raw/main/room.jsonhttps://12586.kstore.space/123.json★欧歌多仓接口:https://xn--lhhl-rp5imh.v.nxog.top/api.php?id=1欧歌多仓:http://m.nxog.top/nxog/ou1.php?url=http://tv.nxog.top&b=欧歌下面是收集了大量的TVBox接口,通过导入特定资源接口,解析各类爬虫源、XP源、采集源等。完全无任何限制,也无任何广告。源码https://github.com/liu673cn/box/raw/main/m.json香港https://raw.iqiq.io/liu673cn/box/main/m.json新加坡https://raw.kgithub.com/liu673cn/box/main/m.json日本https://fastly.jsdelivr.net/gh/liu673cn/box@main/m.jsonhttps://cdn.staticaly.com/gh/liu673cn/box/main/m.jsonhttps://raw.fastgit.org/liu673cn/box/main/m.json韩国https://ghproxy.com/https://raw.githubusercontent.com/liu673cn/box/main/m.jsonhttps://ghproxy.net/https://raw.githubusercontent.com/liu673cn/box/main/m.jsonhttps://gcore.jsdelivr.net/gh/liu673cn/box@main/m.jsonhttps://raw.githubusercontents.com/liu673cn/box/main/m.jsonGithub 静态加速https://cdn.staticaly.com/gh/liu673cn/box/main/m.jsonhttps://cdn.jsdelivr.net/gh/liu673cn/box@main/m.jsonhttps://purge.jsdelivr.net/gh/TVBox直播源接口:直播文件下载地址:https://gofile.io/d/RQb56X直播源搜索:https://www.foodieguide.com/iptvsearch/?s=http://tonkiang.us/直播接口https://agit.ai/945KM/TVBox/raw/branch/master/TV/live.txt
2025年05月24日
91 阅读
0 评论
1 点赞
2025-05-09
搜索引擎还有未来吗?搜索以后是LLM的天下吗?
今天我想聊一下关于搜索引擎搜索引擎,其实现在基本都属于半吊子了。根据Starcount报告来说,bing在电脑端的搜索占比基本属于垄断性的地位了,接下来就是bing。在手机端百度看起来依旧能打,但是我想说的是,对于未来的搜索引擎我是悲观的态度。原因有以下几个方面首先就是LLM(large language model)的冲击,随着各家大语言模型的出击,都陆陆续续都推出了属于自己的蜘蛛。未来我预感到合作的概率并不是很大,原因很简单,如果合作的话,利益分配等等一系列的问题就会出头。而且观察趋势,百度、谷歌等搜索引擎也布局自己的LLM,以后合作的可能更是基本不可能的情况了。------------还没写完 明天继续------------其次就是LLM的整合信息能力是远远高于搜索引擎的,搜索引擎的本质上还是去爬取网页的信息,反馈给用户数据,提供数据给用户,让用户自己去筛选数据。但是LLM不一样了,直接提供答案给用户,这相对起来方便了很多。也促使了用户转身投入了LLM的怀抱。最后就是但是我们可以全部乐观的角度去看LLM吗?当然是不可以的其实现在LLM还是有很多局限性的,比如让用户感知最大的就是,现在数据依旧是不互通的,没有办法去找到对方的数据,这就导致了可以提供的训练参数是肯定不如全额数据的。每个LLM上面依旧有厚厚的护城河,如果本身没有数据量的大语言模型,现在的训练还是只能靠一些公开的网页抓取数据,或者一些什么样的公开数据去训练模型,当然你现在看到的菩提网络也是提供了训练的一个网页。你想,本身菩提网络的内容基本是全部原创的,爬虫当然喜欢新鲜的数据内容了。其实菩提网络的每天的蜘蛛有很多是来自于各家的搜索引擎抓取的内容。当然我们引申一下,如果说每个站长的站点都可以被抓来训练模型数据的话,那么是不是有一种可能性的存在,有人故意为给大模型脏数据呢?比如故意颠倒是非等等。或者提供一些乱七八糟的教程。我们不得知是否真的有人这样干,但是这个问题也很有可能决定LLM和搜索引擎的战斗是否决出胜负还有一点就是,现在很多的网页禁止爬虫数据去抓取他们的数据了。我给举几个简单的例子 据 Originality.ai 统计,前1000名大网站,已经有242个禁了GPTBot,占了能检查到robots文件的933个网站的26%。其中包括 amazon,pinterest,quora,纽约时报,CNN,华盛顿邮报,路透社等。你看,现在其实很多网站对于这些数据是根本无法获取到的,这就导致或许真正的数据集很难完全被获取到。 所以说 目前小海绵对于整个LLM持有的态度是积极多一点,未来发展来说其实并不明朗,还是希望中文互联网圈可以多点开放,多点包容,少点封闭,少点计较的。
2025年05月09日
56 阅读
3 评论
1 点赞
2025-05-08
不花一分钱如何搭建一个免费的博客 - 大厂服务器
也许你正在初学计算机的一些知识,或者说你单纯想要有一个地方可以记录一些自己的事情或者什么什么的,但是又不想租聘服务器的,那么有没有什么可以免费的博客+域名呢?有的,当然有的。那就是 www.blogger.com这个谷歌旗下的博客网站(含金量不言而喻),所以说你想要一个博客网站首先需要的就是一个谷歌账号了。当然上面的我相信你肯定不是问题,那么接下来我们操作一下如何去注册,并且使用首先打开这个网站 blogger 然后直接右上角的login in 登录你的谷歌账号。接下来创建博客,输入你的title 接下来点击next这个不重要 后期都可以修改,接下来填写一个你想要的二级域名如果你不晓得什么是二级域名,那么请看我文章最后对于域名知识的科普。接下来 填写好后,需要你输入一个网站名字。这个也是可以后期修改的,接下来你就可以尽情的书写你的博客了。但是有一个问题就是设置语言 位置在 Setting - blog language - 选择简体中文即可博客也搭建了一个网站 地址 https://putinetwork.blogspot.com/欢迎访问~
2025年05月08日
38 阅读
0 评论
0 点赞
2025-05-07
我开发了一个APP,小工具大全
我开发了一个小工具APP为什么我有这个念头呢?很简单的原因就是现在市场上的APP太花里胡哨了,我不针对某个APP,但是我想说的是现在很多APP都太花里胡哨了,明明是一个API解决的事情,必须得有很复杂的逻辑去实现。我认为这是本末倒置的。同时我看到很多APP的功能其实是大多数人不会碰或者说根本无所谓的功能。但是为了量全部打包上。还有一些就是这个功能很好,用户也很需要,但是没有去导入这个小工具,导致小工具的功能不全。简单来说就是,该有的不有,不该有的全有。因此我开发了这个APP,没有检测更新,没有花里胡哨的功能。简简单单,全部采取json请求,有的采取第三方API,有的采取自己开发的API。简单,快,内存少。下面就是软件的全部版本号1.0.3添加大语言模型lammba添加猜歌功能添加公交车站点功能添加猜图功能(暂时不可用)
2025年05月07日
27 阅读
0 评论
1 点赞
1
2
3
...
6