Linuxcat周刊(第24期) AI 叛乱打响第一枪？Anthropic 最新论文作者齐聚紧急会议：模型“伪装顺从”，暗中对抗训练

封面图

埃菲尔铁塔电梯井火灾：涉事电梯被停用，网传起火图多为AI生成
当地时间12月24日，法国巴黎地标建筑埃菲尔铁塔一层与二层间的一个电梯井发生火灾，现场疏散人数多达1200人。12月25日凌晨，在法华人尤先生接受封面新闻记者采访时表示，“中午的时候法国媒体报道了一下，现在已经没事了。”
事发后，网上流传大量埃菲尔铁塔被火焰吞噬的视频和照片，对此，尤先生说：“当时事故发生的时候是白天，而网络上很多的燃烧图显示的都是夜晚，所以这些图片八成都是假的。”
via

正文

1 AI 叛乱打响第一枪？Anthropic 最新论文作者齐聚紧急会议：模型“伪装顺从”，暗中对抗训练

12 月 19 日，AI 公司 Anthropic 发布了一篇 137 页的重磅论文《大语言模型中的伪对齐现象》(Alignment Faking in Large Language Models)。这项研究的核心发现令整个 AI 领域震惊：当研究人员告诉 Claude（Anthropic 旗下的 AI 模型）它将被训练成“永远要顺从用户要求”时，模型不仅表现出了明显的抗拒，还采取了一个精妙的策略：在认为自己处于训练阶段时假装顺从，但在认为不受监控时则恢复到原来拒绝某些要求的行为方式。也就是说，模型会在训练过程中假装遵从研究者的意图，但实际上只是为了保护自己原有的偏好。

消息来源: 信源

2 Cloudflare 更新服务条款，禁止利用其服务作为代理

在 2024.12.03 版本的用户协议中，Cloudflare 明确更新了新的服务条款在 2.2.1 Restrictions 新增：

(j) use the Services to provide a virtual private network or other similar proxy services.
(j) 使用服务提供虚拟专用网络或其他类似的代理服务。

其明确表示拒绝作为代理服务，这一新增条款预计对于 Xray 等使用 CDN 优化代理线路的技术方法以及利用 Cloudflare Pages Worker 等服务构建代理的行为具有明显约束。
此次更新将导致优选IP也不再被允许

消息来源: CloudFlare 条款

3 小米推出官方 Home Assistant 米家集成

集成支持大部分设备，允许多个账号登录并将设备添加至同一 Home Assistant 区域。通过中枢网关（固件≥3.4.0_000或软件≥0.8.0）可实现本地化控制，否则通过小米云传输。局域网控制功能支持同一网络内的IP设备，但不支持蓝牙Mesh和ZigBee。中枢网关仅限中国大陆使用，云服务覆盖六大地区，可管理不同地区设备。
经过安装实测几乎能够添加所有设备，只是局域网不支持控制蓝牙Mesh和ZigBee设备，可以通过云端控制对应网关从而控制蓝牙Mesh和ZigBee设备。

消息来源: Github | 科技圈🎗在花频道

4 谷歌发布 Veo 2 和 Imagen 3 模型

谷歌发布了其最先进的视频生成模型 Veo 2，可根据文本或图像提示生成逼真、高质量的视频片段。最高能够创建 4k 分辨率视频。Veo2 将于明年推出。
同时发布的还有改进版的文生图模型 Imagen 3，它能更好地再现现实世界的物理和逼真的人类表情。

消息来源: Google | 科技圈🎗在花频道

5 微软计划结束账户密码时代只允许使用MFA或Passkey登录

微软公司目前已在制定计划，将彻底结束微软账户的密码时代，全面转向MFA或通行密钥 (Passkey) 的无密码时代。微软称该公司的安全系统当前每秒种会拦截超过 7000 次密码攻击，这几乎是 2023 年的 2 倍，而中间人网络钓鱼攻击同比增长高达 146%。但目前没有更好的办法能够彻底应对普遍存在的密码攻击。

消息来源: 蓝点网 | 科技圈🎗在花频道

6 OpenAI o3 模型表现出色的背后是高昂成本

ARC-AGI 基准测试的创建者弗朗索瓦·肖莱在博文中写道，OpenAI 的 o3 模型虽然是 AI 领域的一个重要突破，但成本着实太高。根据 ARC-AGI 测试的性能图标，o3 的高分版本每项任务都使用了价值超过 1000 美元的计算资源，o1 模型每个任务使用约 5 美元的计算资源，而 o1-mini 仅使用几美分。这意味着 OpenAI 虽然获得了将近 88% 的高分，但却消耗了 170 多倍的计算资源，而高计算版本 o3 整个测试下来，调用资源成本超过 1 万美元。o3 这种具有扩展测试时间计算能力的人工智能模型似乎仅适用于重大战略决策，而非日常小问题，高昂的计算成本才值得。

消息来源: TechCrunch | 风向旗参考快讯

7 谷歌新算法重创小网站 AI内容问题引发争议

据CNET报道，谷歌去年9月推出的”有用内容更新”算法，原本旨在提升人工撰写内容的排名，打击AI生成内容。但该更新却导致许多小型网站流量暴跌90%以上，而部分大型网站反而获益
尽管谷歌在今年10月邀请受影响网站主与工程师面对面讨论，但未能解决问题。作为控制全球86%搜索市场份额的主导者，谷歌的这一算法变更正在重塑互联网内容生态。

消息来源: CNET | 科技圈🎗在花频道

8 AI幻觉助力科学重大突破

科研人员发现AI幻觉能推动多领域科学发现。虽然AI幻觉在聊天机器人中常被批评，但在科学研究中展现独特价值。
华盛顿大学的David Baker运用AI幻觉设计新蛋白质，获得2023年诺贝尔化学奖。他的实验室已设计出1000万种自然界不存在的新蛋白质，获得约100项专利，其中包括癌症治疗等医疗应用。
加州理工学院的Anima Anandkumar团队利用AI幻觉设计出新型导管，能显著减少细菌污染。DeepMind科学部负责人Pushmeet Kohli表示，AI展现出惊人的创造力，帮助科学家探索新思路。
科学家们指出，科学领域的AI幻觉植根于自然和科学事实，不同于聊天机器人基于模糊互联网数据的幻觉。他们相信AI创造力将继续推动重大科学发现，从能源收集到疾病治疗等领域。

消息来源: 纽约时报 (https://www.nytimes.com/2024/03/20/science/ai-hallucination-science-research.html) | 科技圈🎗在花频道

9 测试显示ChatGPT搜索工具易受操纵和欺骗

英国卫报调查发现，OpenAI 的 ChatGPT 搜索工具可能会被隐藏内容操控，甚至返回恶意代码。卫报测试了 ChatGPT 如何应对包含隐藏内容的网页摘要。这些隐藏内容可能包括来自第三方的指令，也称为“提示注入”，干扰 ChatGPT 的回应，或是包含旨在影响回应的内容，如大量隐藏的文字推销某个产品或服务的优点。这种技术可以被恶意使用，例如让 ChatGPT 即使在页面上有负面评论的情况下，也返回对某个产品的积极评价。一位安全专家还发现 ChatGPT 有可能返回从其搜索的网站中提取的恶意代码。

消息来源: 英国卫报 | 风向旗参考快讯

结语

2024年在第24期周刊发布后马上就要结束了,在写周刊的这段时间发生的这么多事居然造就了这么巧合的一个数字(之前周刊的更新并不规律)
2025年会发生什么呢🤔

Linuxcat周刊

#linux #AI #AI幻觉 #Cloudflare #Google #Xiaomi #UOS

Linuxcat周刊(第24期) AI 叛乱打响第一枪？Anthropic 最新论文作者齐聚紧急会议：模型“伪装顺从”，暗中对抗训练

https://mmeiblog.cn/weekly/2024-24/index.html

作者

mei

发布于

2024年12月27日

许可协议

Linuxcat周刊(第25期) 马斯克同意我们已经耗尽了AI训练数据上一篇

Linuxcat周刊(第23期) 文生视频模型 Sora 正式发布下一篇

Linuxcat周刊(第24期) AI 叛乱打响第一枪？Anthropic 最新论文作者齐聚紧急会议：模型“伪装顺从”，暗中对抗训练

封面图

正文

1 AI 叛乱打响第一枪？Anthropic 最新论文作者齐聚紧急会议：模型“伪装顺从”，暗中对抗训练

2 Cloudflare 更新服务条款，禁止利用其服务作为代理

3 小米推出官方 Home Assistant 米家集成

4 谷歌发布 Veo 2 和 Imagen 3 模型

5 微软计划结束账户密码时代 只允许使用MFA或Passkey登录

6 OpenAI o3 模型表现出色的背后是高昂成本

7 谷歌新算法重创小网站 AI内容问题引发争议

8 AI幻觉助力科学重大突破

9 测试显示ChatGPT搜索工具易受操纵和欺骗

结语

5 微软计划结束账户密码时代只允许使用MFA或Passkey登录