Linuxcat周刊(第10期) 知乎故意使用乱码干扰必应/谷歌等爬虫

公告: 由于我计划物理迁移一台服务器,本周*.linuxcat.top域名大部分将无法访问,本次迁移使用家用轿车,服务器共存储了2.21TB数据,两地相距约30分钟车程,本次迁移等效带宽约为1.26Gbps

大事概览

1 CentOS Linux 7 生命周期正式结束,将不会获得更新和安全补丁

6月30日消息,今天 CentOS Linux 7 生命周期终止 (EOL),使用它的企业或机构必须迁移到新的解决方案,才能继续获得更新和安全补丁。CentOS 7 于2014年正式发布,最新版本为2020年推出的7.9,并于2024年6月30日正式 EOL。此外,与 CentOS 7 同源的红帽企业 Linux 7 (RHEL 7) 也于今日进入 EOM 停止维护阶段,企业可通过 ELS 订阅付费获得额外4年的延长支持。

消息来源: IT之家

2 近 20 年来 OpenSSH 的第一个高危 RCE

Qualys 威胁研究部门 (TRU) 在基于 glibc 的 Linux 系统中的 OpenSSH 服务器 (sshd) 中发现了一个远程未经身份验证的代码执行 (RCE) 漏洞。分配给此漏洞的CVE为CVE-2024-6387。
该漏洞是 OpenSSH 服务器 (sshd) 中的信号处理程序争用条件,允许在基于 glibc 的 Linux 系统上以 root 身份执行未经身份验证的远程代码执行 (RCE);这带来了重大的安全风险。此争用条件会影响 sshd 的默认配置。
受影响的版本:

1
2
version < 4.4p1
8.5p1 <= version < 9.8p1

如果 sshd 无法更新或重新编译,请在配置文件中将 LoginGraceTime 设置为 0。这会通过用完所有 MaxStartups 连接将 sshd 暴露在拒绝服务中,但它可以防止远程代码执行风险。

消息来源: Qualys Blog

乐子

1 Gemini 数据分析能力并不像宣称的那么好

谷歌 AI 模型 Gemini 1.5 Pro 和 1.5 Flash 据称能够凭借其“长上下文”完成以前不可能完成的任务,例如总结数百页的文档或搜索电影镜头中的场景。但新的研究表明,这些模型实际上在这些方面并不是很擅长。两项独立研究调查了 Gemini 模型和其他模型如何很好地理解大量数据。两项研究都发现 Gemini 1.5 Pro 和 1.5 Flash 很难正确回答有关大型数据集的问题;在一系列基于文档测试中,这些模型给出正确答案的概率只有40%到50%。
马萨诸塞大学阿默斯特分校博士后、其中一项研究的合著者 Marzena Karpinska 说:“虽然像 Gemini 1.5 Pro 这样的模型在技术上可以处理长篇上下文,但我们已经看到许多案例表明,这些模型实际上并不‘理解’内容。”

消息来源: Techcrunch

2 知乎故意使用乱码干扰必应/谷歌等爬虫

近期有反馈称使用微软必应搜索和谷歌搜索发现存在不少知乎乱码内容,即搜索结果里知乎内容的标题和正文内容都可能是乱码的,但抓取的正文前面一些段落内容可以正常查看。
这种猜测现在基本已经坐实,因为有网友发现只要用户代理字符串 (UserAgent) 中包含爬虫类关键词例如 spider 和 bot,那么知乎就会返回乱码内容,如果不包含这些关键词则返回正常内容。
值得注意的是百度搜索的爬虫也就是 Baiduspider 也返回乱码内容.
测试中还有个有趣的情况是 OpenAI 的 GPT 爬虫也就是 GPTBot 有时候不会乱码有时候会乱码,不过大多数情况下也都是乱码的,因为 UA 匹配到了关键词 bot 所以返回乱码内容,这不太可能是知乎也允许 OpenAI 抓取内容。
从最开始知乎屏蔽其他搜索引擎只允许百度和搜狗到必应搜索结果里出现乱码内容以及现在的关键词匹配,这些情况基本说明了知乎确实不希望自己的内容被抓取,对知乎来说现有的内容是个巨大的金矿,如果人工智能公司不花钱来买的话那肯定不能提供这些数据,所以接下来可能某个时候就会传出某某公司与知乎达成协议可以获取内容用于 AI 模型训练。

消息来源: 蓝点网

3 bootcdn,staticfile等资源加速CDN遭投毒

据研究人员称,最近通过多个 CDN(即 Polyfill.io、BootCDN、Bootcss 和 Staticfile)进行的大规模供应链攻击影响了 100,000 到数千万个网站,这些攻击已被追踪到一个共同的运营商。
研究人员发现了一个公共 GitHub 存储库,据称 Polyfill.io 运营商不小心暴露了他们的 Cloudflare 密钥。
通过使用这些泄露的 API 密钥(这些密钥仍然处于活动状态),研究人员能够确定所有四个域以及更广泛的供应链攻击背后都有一个共同的运营商。
此消息可以与第9期的第11条联系起来看
目前部分广告拦截插件已将相关域名加入黑名单,涉及的域名包括:

  • bootcdn.net
  • bootcss.com
  • staticfile.net
  • staticfile.org
  • unionadjs.com
  • xhsbpza.com
  • union.macoms.la
  • newcropc.com

    消息来源: bleepingcomputer

4 英国 ISP 今年前六个月封锁了七千多个盗版网站

2024年上半年,英国领先的互联网服务提供商必须封锁至少7,000个域名和子域名,以防止用户访问盗版网站。大部分封锁活动旨在打击提供体育直播和其他直播的盗版 IPTV 服务。与前几年一样,音乐、电影和出版行业继续实施封锁计划。下个月将是英国第一条网站屏蔽禁令颁布13周年。好莱坞各大电影公司针对 Usenet 索引网站 Newzbin 采取的行动,导致 ISP 英国电信被勒令屏蔽该服务。这仅仅是个开始,如今在大多数情况下,包括英国电信、Virgin Media 和 Sky 在内的英国主要 ISP 都支持网站屏蔽请求,并且尽管复杂性日益增加,但还是乐意执行。

消息来源: Torrentfreak

5 阿里云上海可用区N网络故障,疑似绝区零玩家过于热情

北京时间2024年07月02日10:04,阿里云上海可用区N网络访问出现异常,影响较大的应用为Bilibili的视频评论区和用户主页无法加载以及酷安主页无法加载,有人猜测此次故障可能是因为米哈游新游戏绝区零玩家过于热情导致的.
3日消息,在哔哩哔哩上有人发布有关光缆被挖断的动态和视频

6 马斯克:xAI训练Grok-3大模型用了10万块英伟达H100芯片

马斯克表示,训练人工智能聊天机器人需要数据集,而且从现有数据中清除大型语言模型 (LMM) 的工作量很大。xAI 的 Grok-3 用了10万块英伟达 H100 芯片进行训练,相信它会“非常特别”。

消息来源: 马斯克

7 OPENAI 的 ChatGPT Mac 应用以纯文本形式保存对话 存在隐私风险

直到周五,OpenAI 最近推出的 macOS 版 ChatGPT 应用程序还存在一个潜在的令人担忧的安全问题:应用将所有对话以纯文本形式存储,可能会暴露用户的敏感数据。开发者 Pedro Vieito 在 Threads 上指出,Mac 版 ChatGPT 应用并未使用 macOS 的标准沙盒系统。通过查看应用存储的偏好设定和缓存文件,Vieito 发现所有在应用中登记的对话都以纯文本形式保存,任何人都可以轻易访问这些数据。OpenAI 发言人表示:“我们已经意识到了这个问题,并发布了一个新版本的应用,可以加密这些对话。”“我们致力于提供有益的用户体验,同时在我们的技术不断发展的同时保持我们的高安全标准。”

消息来源: 流动日报TheVerge

8 Cloudflare 推出阻止人工智能机器人的工具

云服务提供商 Cloudflare 推出了一款新的免费工具,以防止机器人抓取其平台上托管的网站数据来训练人工智能模型。要启用,只需导航到 Cloudflare 仪表板的“安全性”>“自动程序”,打开“AI 爬虫程序和爬网程序”选项。该公司表示:“客户不希望人工智能机器人访问他们的网站,尤其是那些不诚实的机器人”为了解决规避检测问题,Cloudflare 分析了人工智能机器人和爬虫流量,以微调自动机器人检测模型。除其他因素外,模型还考虑了人工智能机器人是否会通过模仿使用网络浏览器的用户行为来试图逃避检测。

消息来源: TechCrunchCloudflare

9 超快网络流算法问世,或将改变整个网络流算法研究领域

瑞士苏黎世联邦理工学院的研究人员开发了一种超快算法,即网络流算法。该算法成功解决了在网络中实现最大流量的同时最大限度降低传输成本的问题。这种超快计算能力是研究高度复杂、数据丰富、动态且快速变化的网络(例如生物学中的分子网络或大脑网络)的重要环节。
新算法能为任何类型的网络(包括铁路、公路、水上交通和互联网)计算出最佳且最低成本的交通流量方案。其执行计算的速度极快,几乎在计算机读取描述网络数据的瞬间就能提供解决方案。

消息来源: 新华网

10 巴西禁止 Meta 挖掘数据以训练 AI 模型

巴西国家数据保护机构当地时间周二决定,Instagram 和 Facebook 的母公司 Meta 不能使用来自该国的数据来训练其人工智能。Meta 更新后的隐私政策允许该公司将人们的公开帖子输入其人工智能系统。然而,这种做法在巴西是不允许的。该机构在国家官方公报中表示,这一决定源于受影响数据主体的基本权利面临严重、无法挽回或难以修复的损害的迫在眉睫的风险。Meta 的发言人在一份声明中表示,公司对此感到失望,并坚称其方法符合巴西的隐私法律法规。这家社交媒体公司在欧洲的隐私政策更新也遭遇了阻力,该公司最近搁置了原定于上周开始的将公开帖子输入人工智能训练系统的计划。

消息来源: 美联社

11 日本宣布废除政府所有使用软盘的规定

7月3日消息,软盘鼎盛时期二十年后,日本政府终于在所有系统中废除了软盘的使用。上个月中旬,日本数字化厅已经废除了所有1,034项软盘使用法规,但有关汽车回收的环境法规除外。一直倡导淘汰政府部门传真机等模拟技术的日本数字化大臣河野太郎在3日的声明中表示:“6月28日,我们赢得了与软盘的战斗。”数字化厅是在2021年新冠疫情期间成立的。急于在全国范围内开展检测和疫苗接种,将政府仍然依赖纸质备案和过时的技术暴露出来。

消息来源: Arabnews.jp

12 俄罗斯黑客曝光1.5TB角川集团数据,涉及实况主及合作者个人信息

角川集团及其相关网站自6月初起瘫痪至今,包括知名的niconico动画在内均无法使用。6月27日,俄罗斯黑客组织“BlackSuit”声称对这一事件负责,并表示已获取角川集团资料,计划自7月1日起逐步公开这些机密。6月28日,该组织首次泄露部分公司信息。随后,7月2日再次宣称进一步泄露了公司的信息,涉及niconico动画合作实况主、声优、超会议活动合作客户等
目前公开的资料约有100GB,涵盖角川集团教育机构师生信息、旗下多玩国员工信息,以及niconico动画合作演出者和实况主的详细信息,包括地址和驾照照片等。
角川集团强调,用户的信用卡信息并未在内部存储,因此不存在从公司泄露的风险。同时,警告用户不要访问攻击者所提供的网站或下载数据文件,以避免恶意软件感染。此外,呼吁公众不要通过社交媒体分享相关数据,以免个人信息泄露并造成严重影响。
目前,角川集团正在调查这些声明的真实性,预计需要一段时间来验证。公司表示,将尽全力尽快确认事实,并计划在7月内获得外部调查机构的结果。一旦调查结果确定,将立即向公众报告。同时,角川集团已向警方和相关当局报告此事件,并正在接受调查。尽管公司业务受到一定影响,但将坚定应对此类犯罪行为。公司还将进一步调查事件原因,并加强信息安全措施,以防止类似事件再次发生。

消息来源: Yahoo新闻 / 游民星空 / KADOKAWA / X

13 Cloudflare Workers 反向代理存在封号隐患

近日,有数名 Nodeseek 论坛的网友发帖称自己的 CF 账号被封,引发关注。据了解,这些用户被封多数与使用 Workers 反向代理有关。反代其它网站,尤其是知名网站可能会被认为是仿冒欺诈行为。
部分网友认为封号是 Netcraft 投诉引起的。这是一个网络犯罪打击服务,在 Netcraft 的嗅探器发现“欺诈网站”后会自动向 Cloudflare 投诉举报,进而导致封号。
因为反向代理被 Netcraft 投诉封号的情况一直存在。近期,由于中国大陆陆续关停了 Dockerhub 镜像站点,许多人通过 CF 来反向代理 Dockerhub,可能是引发更多误判封号事件的原因之一。OneDrive 和 GitHub 也是最常被反代的服务,同样是封号的重要因素。
7月4日: Cloudflare 承认误删了部分合法帐户,现已采取恢复和补偿措施
Cloudflare 通过邮件告知部分受影响的用户,该公司在打击一组滥用账户时“无意中删除了少数合法帐户”,在发现这个错误后已着手恢复这些账号。
根据 NS 论坛中用户的反馈,一部分被误伤者实际已使用原邮箱重新注册了新号,有人在收到邮件后删除了新账号,使旧账号得以恢复,但原有设置不全。
Cloudflare 表示“将向受影响的付费客户提供帐户信用额度”。如果用户发现帐户存在任何问题,可以通过支持门户 (https://dash.cloudflare.com/?to=/:account/support)提交工单。
近日,一些使用反向代理的用户遭到封号,使人一度怀疑是因为反代触发仿冒欺诈投诉引起的。

消息来源: VPS信号旗播报


Linuxcat周刊(第10期) 知乎故意使用乱码干扰必应/谷歌等爬虫
https://mmeiblog.cn/weekly/2024-10/index.html
作者
mei
发布于
2024年7月5日
许可协议