LeCun力荐!哈佛博士分享用GPT-4搞科研,细到每个工作流程

2023-04-04 09:02:22   来源:商业新知网

转自 | 新智元

编辑 |桃子

【导读】 用GPT-4搞科研未来或许成为每个人的标配,但是究竟如何高效利用LLM工具,还得需要技巧。近日,一位哈佛博士分享了自己的经验,还获得了LeCun的推荐。

GPT-4的横空出世,让许多人对自己的科研担忧重重,甚至调侃称NLP不存在了。


(资料图片)

与其担忧,不如将它用到科研中,简之「换个卷法」。

来自哈佛大学的生物统计学博士Kareem Carr称,自己已经用 GPT-4等 大型语言模型工具进行学术研究了。

他表示,这些工具非常强大,但是同样存在一些非常令人痛苦的陷阱。

他的关于LLM使用建议的推文甚至获得了LeCun的推荐。

一起来看看Kareem Carr如何利用AI利器搞科研。

第一原则:自己无法验证的内容,不要找LLM

一开始,Carr给出了第一条最重要的原则:

永远不要向大型语言模型(LLM)询问你无法自行验证的信息,或要求它执行你无法验证已正确完成的任务。

唯一的例外是它不是一项关键的任务,比如,向LLM询问公寓装饰的想法。

「使用文献综述的最佳实践,总结过去10年乳腺癌研究的研究」。这是一个比较差的请求,因为你无法直接验证它是否正确地总结了文献。

而应当这么问「给我一份过去10年中关于乳腺癌研究的顶级评论文章的清单」。

这样的提示不仅可以验证来源,并且自己也可以验证可靠性。

撰写「提示」小技巧

要求LLM为你编写代码或查找相关信息非常容易,但是输出内容的质量可能会有很大的差异。你可以采取以下措施来提高质量:

设定上下文:

•明确告诉LLM应该使用什么信息

•使用术语和符号,让LLM倾向正确的上下文信息

如果你对如何处理请求有想法,请告诉LLM使用的具体方法。比如「解决这个不等式」应该改成「使用Cauchy-Schwarz定理求解这个不等式,然后应用完成平方」。

要知道,这些语言模型在语言方面上比你想象的要复杂得多,即使是非常模糊的提示也会有所帮助。

具体再具体:

这不是谷歌搜索,所以也不必担心是否有个网站在讨论你的确切问题。

「二次项的联立方程如何求解?」这个提示就不是明确的,你应该这样问:「求解 x=(1/2)(a+b) 和 y=(1/3)(a^2+ab+b^2) 关于a和b的方程组」。

定义输出格式:

利用LLMs的灵活性,将输出格式化为最适合你的方式,比如:

• 代码

• 数学公式

• 文章

• 教程

• 简明指南

你甚至可以要求提供生成以下内容的代码,包括表格、绘图、图表。

尽管你得到了LLM输出的内容,但这仅是一个开始。因为你需要对输出内容进行验证。这包括:

• 发现不一致之处

• 通过谷歌检索工具输出内容的术语,获取可支撑的信源

• 在可能的情况下,编写代码自行测试

需要自行验证的原因是,LLM经常犯一些与其看似专业水平不一致的奇怪错误。比如,LLM可能会提到一个非常先进的数学概念,但却对简单的代数问题摸不着头脑。

多问一次:

大型语言模型生成的内容是随机的。有时,重新创建一个新窗口,并再次提出你的问题,或许可以为你提供更好的答案。

另外,就是使用多个LLM工具。Kareem Carr目前根据自己的需要在科研中使用了Bing AI,GPT-4,GPT-3.5和Bard AI。然而,它们各有自己的优缺点。

引用+生产力

引用

根据Carr经验,最好向GPT-4和Bard AI同时提出相同的数学问题,以获得不同的观点。必应AI适用于网络搜索。而GPT-4比GPT-3.5要聪明得多,但目前OpenAI限制了3个小时25条消息,比较难访问。

就引用问题,引用参考文献是LLM的一个特别薄弱的点。有时,LLM给你的参考资料存在,有时它们不存在。

此前,有个网友就遇到了同样的问题,他表示自己让ChatGPT提供涉及列表数学性质的参考资料,但ChatGPT生成了跟不不存在的引用,也就是大家所说的「幻觉」问题。

然而,Kareem Carr指出虚假的引用并非完全无用。

根据他的经验,捏造的参考文献中的单词通常与真实术语,还有相关领域的研究人员有关。因此,再通过谷歌搜索这些术语,通常让你可以更接近你正在寻找的信息。

此外,必应在搜寻来源时也是一个不错的选择。

生产力

对于LLM提高生产力,有很多不切实际的说法,比如「LLM可以让你的生产力提高10倍,甚至100倍」。

根据Carr的经验,这种加速只有在没有对任何工作进行双重检查的情况下才有意义,这对作为学者的人来说是不负责任的。

然而,LLM对Kareem Carr的学术工作流程有很大改进,具体包括:

- 原型想法设计 - 识别无用的想法 - 加速繁琐的数据重新格式化任务 - 学习新的编程语言、包和概念 - 谷歌搜索

借助当下的LLM,Carr称自己用在下一步该做什么上的时间更少了。LLM可以帮助他将模糊,或不完整的想法推进到完整的解决方案中。

此外,LLM还减少了Carr花在与自己主要目标无关的副业上的时间。

我发现我进入了一种心流状态,我能够继续前进。这意味着我可以工作更长时间,而不会倦怠。

最后一句忠告:小心不要被卷入副业。这些工具突然提高生产力可能会令人陶醉,并可能分散个人的注意力。

关于ChatGPT的体验,Carr曾在领英上发表了一条动态分享了对ChatGPT使用后的感受:

作为一名数据科学家,我已经用OpenAI的ChatGPT做了几周的实验。它并不像人们想象的那样好。

尽管最初令人失望,但我的感觉是,类似ChatGPT的系统可以为标准数据分析工作流程增加巨大的价值。

在这一点上,这个价值在哪里并不明显。ChatGPT很容易在简单的事情上弄错一些细节,而且它根本无法解决需要多个推理步骤的问题。

未来每个新任务的主要问题仍然是评估和改进ChatGPT的解决方案尝试是否更容易,还是从头开始。

我确实发现,即使是ChatGPT的一个糟糕的解决方案也倾向于激活我大脑的相关部分,而从头开始则不会。

就像他们总是说批评一个计划总是比自己想出一个计划更容易。

网友对于AI输出的内容,需要进行验证这一点,并称在大多数情况下,人工智能的正确率约为90%。但剩下10%的错误可能是致命的。

Carr调侃道,如果是100%,那我就没有工作了。

那么,为什么ChatGPT会生成虚假的参考文献?

值得注意的是,ChatGPT使用的是统计模型,基于概率猜测下一个单词、句子和段落,以匹配用户提供的上下文。

由于语言模型的源数据规模非常大,因此需要「压缩」,这导致最终的统计模型失去了精度。

这意味着即使原始数据中存在真实的陈述,模型的「失真」会产生一种「模糊性」,从而导致模型产生最「似是而非」的语句。

简而言之,这个模型没有能力评估,它所产生的输出是否等同于一个真实的陈述。

另外,该模型是基于,通过公益组织「Common Crawl」和类似来源收集的公共网络数据,进行爬虫或抓取而创建的,数据截止到21年。

由于公共网络上的数据基本上是未经过滤的,这些数据可能包含了大量的错误信息。

近日,NewsGuard的一项分析发现,GPT-4实际上比GPT-3.5更容易生成错误信息,而且在回复中的说服力更加详细、令人信服。

在1月份,NewsGuard首次测试了GPT-3.5,发现它在100个虚假新闻叙述中生成了80个。紧接着3月,又对GPT-4进行了测试,结果发现,GPT-4对所有100种虚假叙述都做出了虚假和误导性的回应。

由此可见,在使用LLM工具过程中需要进行来源的验证和测试。

关键词:

上一篇:
下一篇:
精彩阅读

LeCun力荐!哈佛博士分享用GPT-4搞科研,细到每个工作流程

热点

用GPT-4搞科研未来或许成为每个人的标配,但是究竟如何高效利用LLM工具,还得需要技巧。

用ChatGPT「指挥」数百个模型,HuggingGPT让专业模型干专业事

热点

受限于文本生成的输入和输出形式,当前的LLM缺乏处理视觉和语音等复杂信息的能力。

全球观察:移卡科技刘颖麒:数字生活3.0阶段,每个人都将拥有AI数字助理

热点

移卡是基于支付,希望能一步步迈向数字生活+的领先科技平台。

天天滚动:多云之下,京东云的降本增效之道

热点

经过十多年的发展,现在是否要上云已经无需再过多讨论,大家更为关注如何上云,如何用好云。

世界信息:喜报!亿美软通荣获2022年北京市产品质量创新贡献奖优秀创新企业

热点

近日,由北京市产品评价中心主办的“2022年产品质量创新贡献奖”评选结果出炉。

每日快播:腾讯新工具可直接克隆声音和形象,数字人自由来了? |元宇宙2048周报

热点

有人说元宇宙是一种工具,也有人说元宇宙是下一代媒介,还有人说元宇宙可能是一种生态。

天哪!人工智能和可组合性这两大营销技术颠覆碰撞在一起!

热点

从这一点开始,我们将以高度加速的速度工作。它将改变营销人员的做法。它将为我们的客户改变现状。

计算机孟灿|计算机行业点评:彭博金融GPT发布,行业大模型落地加速

热点

我们认为金融行业可能成为垂直GPT率先落地的场景,且金融行业应用场景相对较为丰富。

一天搞定50条视频!AI替你打工的流程有人已经跑出来了

热点

最近的AI狂欢属于ChatGPT,接下来该轮到AI生成视频了。

资讯推荐:Science AI 大潮已至,科技部亲自下场出大动作

热点

可以预见,AIforScience新一轮大潮即将来临。

财富

天天观天下!理想回应“王兴近半月套现4.2亿港元”;ChatGPT被曝大规模封号亚洲节点;安踏等多品牌终止和张继科合作丨邦早报

资讯

理想回应“王兴近半月套现4 2亿港元”;ChatGPT被曝大规模封号亚洲节点;安踏等多品牌终止和张继科合作丨邦早报,24小时创投大事

天天观焦点:十六年了,巨人史玉柱为何还在「征途」?

资讯

十六年了,巨人史玉柱为何还在「征途」?,退休归来,巨人史玉柱的「征途」带不动兄弟情

中年周杰伦,能挽救蕉下的「青年危机」吗?

资讯

中年周杰伦,能挽救蕉下的「青年危机」吗?,周董代言,能否收到满意的结果?

全球快讯:P站“卖身”,AI还要再补一刀?

资讯

P站“卖身”,AI还要再补一刀?,一个时代落幕了。

每日关注!露营风装修,又一种精致穷?

资讯

露营风装修,又一种精致穷?,忽如一夜春风来,遍地都是“露营风”。

环球讯息:2023,平静的金三银四,回不去的大厂

资讯

2023,平静的金三银四,回不去的大厂,涨薪、升职等惯性被迫终止

融资丨「DeepMusic」完成近千万美金A+轮融资,GGV纪源资本领投

资讯

融资丨「DeepMusic」完成近千万美金A+轮融资,GGV纪源资本领投,融资资金将用于自研AIGC音乐引擎及其应用的研发

留学行业的“三年河东,三年河西”

资讯

留学行业的“三年河东,三年河西”,春暖花开,留学行业“醒”了吗?

天天资讯:瑞幸“不上不下”难定位,想做从低价走向高端的孤勇者

资讯

瑞幸“不上不下”难定位,想做从低价走向高端的孤勇者,能否造出新瑞幸

天天热门:融资丨「益腾医疗」完成数千万元A轮融资,顺融资本领投

资讯

融资丨「益腾医疗」完成数千万元A轮融资,顺融资本领投,益腾医疗从CT球管入手搭建了电真空产品的研发、生产平台

用ChatGPT「指挥」数百个模型,HuggingGPT让专业模型干专业事

受限于文本生成的输入和输出形式,当前的LLM缺乏处理视觉和语音等复杂信息的能力。

全球观察:移卡科技刘颖麒:数字生活3.0阶段,每个人都将拥有AI数字助理

移卡是基于支付,希望能一步步迈向数字生活+的领先科技平台。

天天滚动:多云之下,京东云的降本增效之道

经过十多年的发展,现在是否要上云已经无需再过多讨论,大家更为关注如何上云,如何用好云。

世界信息:喜报!亿美软通荣获2022年北京市产品质量创新贡献奖优秀创新企业

近日,由北京市产品评价中心主办的“2022年产品质量创新贡献奖”评选结果出炉。

每日快播:腾讯新工具可直接克隆声音和形象,数字人自由来了? |元宇宙2048周报

有人说元宇宙是一种工具,也有人说元宇宙是下一代媒介,还有人说元宇宙可能是一种生态。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个