ChatGPT 最强竞争对手 Claude 2 推出公开 Beta 版,我们上手实测了一把!

奋斗吧
奋斗吧
擅长邻域:未填写

标签: ChatGPT 最强竞争对手 Claude 2 推出公开 Beta 版,我们上手实测了一把!

2023-07-14 18:23:31 99浏览

整理 | 屠敏出品 | CSDN(ID:CSDNnews)叮叮叮,又一款聊天机器人——Claude 2来了,它可以编写代码、分析文本和撰写文章,当然也支持中文!其实,Claude 2 的聊天机器和 OpenAI 也颇有渊源,因为它是 OpenAI 前高级成员 Daniela Amodei 和 Dario Amodei 在离职后创立的 Anthropic 公司开发的。今年 3 月,创立仅 2 年的...

710413aee70bf5a3bb16bef514c8482c.gif

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

叮叮叮,又一款聊天机器人——Claude 2 来了,它可以编写代码、分析文本和撰写文章,当然也支持中文!

e845a4894efe39df769c4e0d14699362.png

其实,Claude 2 的聊天机器和 OpenAI 也颇有渊源,因为它是 OpenAI 前高级成员 Daniela Amodei 和 Dario Amodei 在离职后创立的 Anthropic 公司开发的。

今年 3 月,创立仅 2 年的 Anthropic 便推出了 Claude 的初版,彼时在申请测试之后,有不少媒体直接将其定位为“ChatGPT 最强劲的竞争对手”。

为什么这么说?

从最新的 Claude 2 来看,用户可以直接通过 Anthropic 网站使用上 Claude 2,而不需要等待漫长的“候选名单”。不过,目前仅限美国和英国地区用户使用 。

同时,需要花 20 美元付费购买 ChatGPT Plus 服务才能用上的一些功能,如上传文件自动总结 PDF 文档,可以在 Claude 2 上免费就能用上。

09573c4b7bd8ae39511a601e01939ca2.png

而且,Anthropic 声称 Claude 2 在三个关键领域展示了进步:编码、数学和推理。他们在博客中写道:“我们最新的模型在律师考试多项选择部分的得分为 76.5%,高于 Claude 1.3 的 73.0%。与申请研究生院的大学生相比,Claude 2 在 GRE 阅读和写作考试中的得分高于 90%,在定量推理方面与申请者的中位数类似。”

那么,Claude 2 和 ChatGPT 相比,真实能力究竟如何?是否能赶超 ChatGPT?CSDN 也在第一时间上手体验了一下!

58ca768ff6d7dbc8ea20310ecdae1d60.png

22684770f84d692d3a885c717ea65aba.png

自我介绍

话不多说,先让大家对它有个基础的了解:

d17e2cdccecf64cb01e96fd6d8c269c5.png

常规聊天机器人有的能力,Claude 2 都有,而且正如上文所说,多了一个“查找并提取信息”的能力。

1131829b4571e95970f010081c9bfb5b.png

和 Google Bard 相比,至少 Claude 2 是支持中文的,不过在理解能力上还有一定的局限性。

e9c7b13728aff15bd2349bc96c544bbe.png

稍微尖锐一些的话题,当问及 Claude 2 ,它和 ChatGPT 相比有何优势时,Claude 2 直白地拒绝做比较。同时,不知道是不是中文能力不太好,在回答问题的过程中出现了一些不明所以的数字内容。当问及它时,它也进行了解释,“数字就是一段无意义的数字串。”

a9a4ab8090dc02f5da229d7a19ab7fe3.png

88b59656489a31e053e2c60120ec2ca1.png

编码

根据Anthropic官方表述,在编码能力方面,Claude 2 表现出熟练程度的提高。它在Python 编程测试 Codex HumanEval上的得分从 56% 上升到 71.2%。

先来一道简单的编码问题。

问:用 Python 实现冒泡排序

Claude 2 最终会对代码思路进一步讲解,方便即使不太精通代码的用户也能了解。

521aaf9c09132a87e4d56b9843e1b66f.jpeg

提问:

4af7dc74276dbf5a5aac3c3ff48f6154.png

Claude 2:

#include <iostream>
#include <cmath>




class Complex {
public:
  double real;
  double imag;




  Complex(double real = 0.0, double imag = 0.0) {
    this->real = real;
    this->imag = imag; 
  }




  // 复数加法
  Complex operator+(const Complex& other) {
    return Complex(real + other.real, imag + other.imag);
  }




  // 复数减法
  Complex operator-(const Complex& other) {  
    return Complex(real - other.real, imag - other.imag);
  }




  // 复数乘法 
  Complex operator*(const Complex& other) {
    return Complex(real*other.real - imag*other.imag, 
                   real*other.imag + imag*other.real);
  }




  // 复数除法
  Complex operator/(const Complex& other) {
    double r = other.real;
    double i = other.imag;
    double denominator = r*r + i*i;
    return Complex((real*r + imag*i)/denominator, 
                   (imag*r - real*i)/denominator);
  }




  // 复数乘方
  Complex pow(int exponent) {
    double r = pow(abs(), exponent) * cos(exponent * arg());
    double i = pow(abs(), exponent) * sin(exponent * arg());
    return Complex(r, i);
  }




  // 复数取模
  double abs() {
    return sqrt(real*real + imag*imag); 
  }




  // 复数辐角 
  double arg() { 
    return atan2(imag, real);
  }
};




int main() {
  Complex a(1.0, 2.0);
  Complex b(3.0, 4.0);




  Complex c = a + b;
  Complex d = a - b;
  Complex e = a * b;
  Complex f = a / b;
  Complex g = a.pow(2);




  std::cout << "c = " << c.real << " + " << c.imag << "i\n";
  std::cout << "d = " << d.real << " + " << d.imag << "i\n";
  std::cout << "e = " << e.real << " + " << e.imag << "i\n";
  std::cout << "f = " << f.real << " + " << f.imag << "i\n";
  std::cout << "g = " << g.real << " + " << g.imag << "i\n";




  return 0;
}

78a7507d3b53b7557c5c740b15fbfc8f.png

自动总结 PDF 文档

在查找并提取信息维度,我们通过上传一篇《Exploring Length Generalization in Large Language Models》的 PDF 论文,让其帮忙总结。

Claude 2 在响应速度和生成内容维度表现都不错,而且用中文提问,即使文档是全英文的论文,其生成的总结内容也是采用中文输出:

0cc340ec2bb4f492c112aeb305511324.png

2b561b117e90ad2eaa837778b11f6270.png

数学问题

同样,根据官方评测,Claude 2 在 GSM8k(一项包含小学数学问题的测试)上,它的得分从 85.2% 提高到 88%。

那我们便以经典的鸡兔同笼问题来检测一下 Claude 2 的能力。

02ffacbb234819672e600b47c2fc8171.png

有些出乎意料的是,Claude 2 给出的思路是对的,但是在计算时出现了错误。当告诉它“算错了”时,它也会及时明白错误,并在重新输出后给出了正确的答案:

a6ced333b356fbd3e020cbb4272bfefa.png

再来一题:7 年前,妈妈年龄是儿子的6 倍,儿子今年 12 岁,妈妈今年多少岁?

a68af8af472aba1b8850eb61643702bf.png

这一次 Claude 2 没有出错。

再试试看:同学们进行广播操比赛,全班正好排成相等的6行。小红排在第二行,从头数,她站在第5个位置,从后数她站在第3个位置,这个班共有()人。

d73b56f4124c8392869d3a5dfdcaf606.png

几轮下来,Claude 2 在小学数学能力表现方面还不错。

563a021a31ff6902d594154b186a8933.png

ChatGPT vs Claude 2

互为竞品,我们还让 ChatGPT 给 Claude 2 出了一道题:

2527e3d22e359b08f7ee176861bcbe65.png

 Claude 2 很快给出了答案:

589884130fd000c2da6d2d04bb834bad.png

再让 ChatGPT 来评价一下:“非常棒的工作,Claude 2!它成功地解决了这道问题。”

9feedf0def2a7b0a5f6d528239bb481c.png

d6e7927750089fe046e8e0d18106ce47.png

闲聊

虽然 Claude 2 说自己的中文理解能力还有限制,但是我们还是忍不住地试了一下:

115f26e5cac2e768bf76fb94c5de6736.png

通过这个示例,Claude 2 表现让我们感到了惊喜。

再试一次:

64ee878631e5275529c2221c92d69953.png

还不错!

a0413694892d7747741a5350b60fed7e.png

最后

整体而言,像 Claude 2 这样的人工智能模型可以分析长而复杂的作品,但 Anthropic 仍然意识到它的局限性。毕竟,语言模型有时会凭空捏造一些东西,也会像计算数学题一样出错。

而且整体体验下来,如果说其能力超过了 ChatGPT,其实还为时尚早。具体在使用时候,还是建议大家需要对输出内容自行验证,工具只能作为辅助。

最后,如果对 Claude 2 感兴趣的小伙伴,也可以通过:https://www.anthropic.com/index/claude-2 申请注册体验。

推荐阅读:

▶微信称不会推出「已读」功能;马斯克宣布成立 AI 公司 xAI;GPT-4 架构曝光,有 1.8 万亿参数|极客头条

马斯克再创业,高调挑战 OpenAI,挖角 DeepMind、微软等 11 位顶级 AI 人才坐镇!

数据不是微服务

好博客就要一起分享哦!分享海报

此处可发布评论

评论(0展开评论

暂无评论,快来写一下吧

展开评论

您可能感兴趣的博客

客服QQ 1913284695