首页> 热点 >

chatGPT学习笔记

2023-01-31 11:03:59 来源：商业新知网

爆红出圈的AI聊天机器人chat GBT背后的研究实验室OpenAI，正在以收购邀约的形式出售现有股份，估值高达 290 亿美元，在没有收入和利润的情况下，成为最值钱的美国出场公司之一。我们认为这一个事件可能是 AI 时代资本定价的一个标杆事件，商业价值已经获得了全球资本的高度认可。

(资料图片)

Q：拓尔思公司发展的背景和场景应用？

A：公司曾于1993年成立是全球的中文检索的创始者，公司成立之初，主要的技术方向围绕着中文全文检索，第一批用户主要是媒体用户。 1997年获得过国家科技进步二等奖，电子部科技进步一等奖。2000 年到 2011 年阶段，公司核心技术是基于检索技术，开发智能内容的管理。2007年我们启动了核高机的非结构化数据系统的研究专项。

拓尔思是作为第一家大数据公司上市A股，公司持续在自然语言处理技术上做研究。语音智能是公司的核心技术的发展场景。NLP自然语言处理的技术在各个场景中的应用上，我们不断进行深入的拓展。治安语言处理在整个搜索引擎、智能客服，舆情分析还有内容处理方面。通过持续的打造，形成了我们每个板块深度应用场景，同时打造了一批属于公司专属的软件平台，这一块是我们业务收入的增长，基于我们对各个场景应用的熟悉，为用户输出了大量的、有时效的应用效果。

拓尔思公司所有的人工智能应用来自于公司对各种算法模型的积累。在A股市场横向比较，在诸多的公司里，我们真正掌握了大量数据资产。2000多台服务器分布在全国的三个数据中心，每天日增1亿条的开源的互联网的数据，公司已经积累了将近1300亿条的开源的数据资产。因为有了数据资产，我们才能做各种各样的训练模型，才能够积累算法。

公司已经积累了 300 种以上的算法，并且对每个场景，如知识图谱的展现、知识库的建立档案、包括前期数据采集、数据的标引，关于数据要素的环节，我们都有自己以完全知识产权的软件平台。搜索引擎是公司自然语言处理的核心应用技术，公司30年以来坚持这方面的积累。在全国大量企业级的搜索都在用 ELSG 的设计 spark开源软件的时候，公司完全做到了自主可控，应用到政府、金融，包括媒体等诸多行业。公司数字经济研究院目前主要研究方向是人机对话，公司近几年在智能问答，围绕着像中国中医科学院的中医中文问答，中国标准化研究院的国家标准的问答，人民卫星出版社的小 a 机器人，时代经济出版社的审计问答、吉林政务的小机智能机器人等。

除此之外，公司围绕着知识图谱事件分析，包括机器人自动写作、智能内容创作，我们都有多个成功的案例。

公司研究人员对于整个 OpenAI过去、现在和未来进研究。结合公司的技术沉淀的事实和对场景应用研究，未来的展望，我们做了系统的梳理。ChatGPT引领了数字劳动力时代，它将是生产力的第五次革命，在新的一经济时代，用工模式将会快速演变。目前人员用工模式有全职员工、外包员工、兼职员工三大传统的用工模式。现在出现了第四种用工模式，即数字化的劳动力，打破了人与机器的边界，依托人工智能技术，包括NLP相关技术，自主完成或者协助人类完成各种工作，比如前端对客或者员工文案的工作等。或者中后台运营协同的等工作。在传统劳动力跟数字劳动力的结合下，通过NLP技术赋能，让传统劳动力爆发出更高效增长力。根据麦肯锡统计到 2030年，数字化,劳动力市场规模可以达到 1.73 万亿水平。chat GPT 的火爆，加速推动这个事件。

劳动数字化全面转变核心在于劳动力它的大脑、认知能力跟分析能力决定了数字劳动力是否能够准确的理解人类的任务指令，是否能够高效准确完成任务。chatGPT基于人类反馈的强化学习，经过千亿规模的模拟训练，能够有非常好的模型表现，可以融合世界的知识跟规则，使得认知能力跟沟通能力能够取得接近人的水平。chatGPT的火爆将增强大众对于对话式的 AI 的信心。我们会有更多的研究来加入行列，推动整个对话式的 AI 的发展。

对话式AI方向大概分成四类，一类是信息查询类的，用户可查询企业相关信息，相当于我数字化劳动力能够替代枯燥重复性的劳动。另一类是专家咨询类，相当于数字劳动力能够替代部分或者扩充资源稀缺的劳动力。数字化劳动力需要大脑赋能。第三类是助手类，数字化劳动能够帮助人类去完成任务，帮订机票，帮预定会议等。相当于数字化劳动力能够帮助人类高效完成某些任务的动作。第四类是交流类的，数字化劳动力能够满足人类情感交流的需求，情感的陪伴，或者闲聊的场景等。在第一个场景精力查询类应用的比较多，比如智能客服机器人，零售，电商银行等售前信息的查询，是通过数字化劳动力去替代重复枯燥的人类的活动，是降本增效。

专家咨询类是NLP，加上世界知识，行业知识，为企业打造企业咨询。比如在法律咨询市场，根据司法部数据显示，全国办理各类的法律事务事件大概是1300，相当于我们涉及到诉讼或者是非诉讼的大概 1300 万件。按照中国的律师平均费率是大概一个小时2788，每个案件平均服务时长十小时来算，整个法律的咨询的总体市场规模达到 3600 个亿。

我们要把法律相关的知识形成一种企业的大脑，能够对外赋能，涉及到怎么去利用知识构建复杂的知识体系。第三个场景是助手类，很重要的一点是智能创作，如直播文案，广告文案的生成，剧本的创作。智能创作整个市场，主要分成几个，数字资讯类、数字营销类、行政办公类的。

18 年各级的网信办审批的互联网信息、新闻信息服务单位总共有 700 多家。在主要的门户资讯，微信公众号，总量大概 2100万，活跃账户有350万，每年SaaS软件一年3000块，这种报价来算，总体规模在120 个亿。

数字营销类每年全球的广告支出蛮高的，Emaster数据显示，18 的全球广告支出高达 6000 多亿美元，使用数字广告占到了 2800 亿美金。行动办公领域是智能创作的重点挖掘的对象，比如帮你协助，创作，写邮件，写报告等。按照每个用户付费100，总体规模达到 530亿。第四交流类，在游戏行业，元宇宙的NPC，给养老机提供大脑。在医疗里行业里头，提供跟老人的情感陪伴，做主动式的问答，做痴呆式的预防等。进行情感交流。卫健委老龄健康司数据显示， 21年我国有1.9 亿的老年人患有慢性病，其中施治人数有 4500 万。这类人群对健康护理的需求很大。在专业护理机构在配置上，轻度失能是 4: 1，要 4 个老人要配一个护理员，中度 3: 1，重度是 2: 1。按平均来讲 3: 1。我国的养老护理员的需求量要到 1500 万。20年我国仅有 50 余万养老护理员，这个缺口超千万。按照一台护理机器人5万计算，缺口比如替换 50% 整个护理机人的市场规模会到 2500 亿。

Q：chatGPT提升的原因？

A：加入了人类的反馈系统，第一步人类做的方案模型进行微调，得到模型。第二步模型根据问题生成答案，训练出奖励模型，这个奖励模型给第三步打分，相当于输入奖励模型，得到分数。优化，不断的迭代。目前的是问题它是非实时模型，离线模型，它获取到的知识是 21年。 21 年以后的数据就不知道了。因此无法保证结果的可靠性，他会编造事实，一本正经地胡说八道。而且只能返回文本的信息。缺乏对行业数据的积累。它只是通用模型。并且训练成本过高，chatgpt训练的大概的预估成本在 1200 万美金以上。它的运行成本也很高。

首先拓尔思有着来自境内外的各行各业的数据市场，超过 1200 个亿，已经具备千亿数据索引等。这些是我们的核心资产，在大数据量的前提下，我们能够大力出奇，足够多的数据，模型有非常好的表现。

其次拓尔思技术的沉淀，坚持核心自主的研发，实现国产化，拥有 40 +发明专利，800 的软件的著作权利。另一个是客户的沉淀，整个数据的产品和服务已经被国内外超过 1 万家的企业级的用户在广泛的使用。

智能客服基本是基于检索式，基于数据库，我们有深度模型，去库里检索答案，返回给用户。Chatgpt的思想是基于大模型，我们有排量数据去训练模型出来，再加入人类反馈的数据，就能够提供更优质的对话体验。

第二点，我们需要行业深耕，chatgpt是一个通用模型，缺乏对行业客户、行业知识的了解，而我们对行业是非常了解的。我们未来会让对话式的 AI 等这种人工智能技术跟行业客户的业务流程更深度融合，从局部业务到全场景的覆盖，实现全业务的数字化、智能化。我们会持续的在行业中不断的累加场景，深耕场景，解决核心业务的。从长远来看，拥有更好的数据，我们更有利于微调大模型，这样公司可以创造出一条可持续护城河。

Q：chatGPT可以对自己不懂的内容胡编滥造，那么目前技术发展路径如何保证AI回答模式的准确率呢？

A：目前整个智能客服处在比较成熟的阶段，所采用的技术基于线索式，它保证了所有的回复都是从库里去拿出来回复给用户。Chatgpt基于生成式的回答给用户，它比较难保证回复的准确性。我们在后续的训练跟维护的过程增加规则和安全检测的模块进到系统，能够保证异常条件下规避掉这些问题。

Q：从公司的视角以及包括整个产业发展趋势来看，4个场景哪一块是最先有可能形成商业化的落地？

A：几个点都有可能。一是专家咨询类的，实际上相当于是企业大脑的角色，需要把我这些行业的知识变成企业的大脑，变成模型的知识，ChatGPT证明了在一些大模型有比较好的表现。二是在智能创作，助手类的，公司能够去高效地提升智能创作的水平，ChatGPT的一些文本生成已经能够满足创作者它的大部分的需求，能够去帮助创作者生成初级的版本，一些创作者在上面再去继续修改，在直播文案的生成、广告文案的生成、基本创作等等有比较好的效率提升。三是在交流类的，ChatGPT拥有比较大的模型，拥有比较好的世界知识，通用知识的前提下，它能够回答各类问题，说明如果公司比如在元宇宙或者养老领域里去做定制，可能也会有比较好的表现。

Q：公司是如何确保采集的数据是针对相关的行业，而并不是会跨到其他行业，因为其实现在有很多的名词，其实同时代表不同的行业的内涵。公司是怎么确保算法以及数据的针对性，是匹配到行业的？

A：这其实是模型上下文关联的能力。实际上是大模型是能够学习到相关的上下文的知识的，比如拿法律的整个行业的数据进来训练出大模型的结构，再基于人类的一些反馈加入训练，最后出来的模型，它会在不同的条件下识别到不同的上下文的知识的。

Q：现在公司最大的痛点是在哪里？或者公司后续会在哪个行业率先落地相关的商业模式，并能产生实际的收益？

A：实际上公司觉得训练的方法和整个技术原理实际上都比较清晰。接下来首先就是语义智能，它本身是经验型的，技术的积累首先还是来自于你所熟悉的行业，人工智能的场景的应用，要选择比较好的主题。在选择主题以后，作为公司在深度的知识的积累，最后结合语义智能，譬如分词分得更细，围绕着主体场景的理解可能就越深。后面通过训练数据源源不断的进来，训练的整个的模型，整个的算法积累的就会越来越丰富。所以公司觉得经验值是非常重要的。举个例子，公司在媒体行业，因为整个全国的新闻媒体，譬如垂直领域的120多家媒体，有40多家是公司的客户，一半以上的审计的融媒体中心也是公司的客户。公司这几年以来在整体的打包服务中，有托尔斯的妙笔小思的智能写作实际上就是合成，但是需要公司了解整个编辑记者他们在应用场景中间，先不断丰富积累他们的新闻要素，新闻稿件的形成的细节。原来编辑记者要花30分钟才搞定的稿件，我们可能快速的一秒钟就能够生成初稿，最后进行加工。另外，融媒体中心成立以后，出稿子的频率越来越快，任务越来越多，越来越大的情况下，需要能够快速高效的去完成工作。还有专家咨询，公司现在正在跟国家知识产权局深度的打造专业的咨询服务，整个国家知识产券局现在2万多专利评审人员，80%的时间都在公司的三大平台上进行工作，这就是公司长期积累的知识。国家专利局有全国最全的专利库，还有每一年向世界主要的专业大国交换回来的专利，但是这些文本信息都是一篇一篇的专利原作，公司对原作进行语义智能的分区，进行各种各样的标义，接下来在申请专利的过程中间，公司专利申请人员对于整个专利申请的流程包括整个专利检索的这些专业的知识，就能够打造公司专业的技术服务。公司实际上强调的还是对行业深入了解和熟悉的程度。譬如刚才您提到的法律，公司的背后正在通过跟律所合作打造公司的法律的知识库，因为整个法律咨询不可能出现万能的，什么样的法医知识都懂的，可能围绕住房纠纷或者刑事案件，背后有一系列知识库的间接。公司有自己的知识图谱的研究院，多年以来在开源情报这方面持续实现了一定比例的收获，并且还有很好的增长趋势，基于对整个的开源情报的分析，各种各样的数据的采集加工，不断迭代，形成了公司自己的知识图谱的各种各样的算法。

Q：未来是不是会有可能在每个行业都会诞生出龙头，类似于搜索引擎龙头，未来的趋势应该是有垂直行业为主，还是有大一统的搜索平台为主？

A：刚才公司都提到了共同的问题，现在公司关注的事件，实际上会发现它现在整个积累的时间和计算的时间，尽管跟国内的公司比较，已经有了数量级的差异，但是它不能够穷尽一切，理论上来讲，它能够穷尽一切以后它就真正能够替代人了。现在公司在探讨它的应用的同时，反过来反思公司国内有哪些应用场景，从这两方来讲，公司认为每一个垂直的专业板块空间都是非常大的，公司在整个人工智能和大数据的中间软件，已经达到了比较强大的自主可控的软件平台的积累。但是对于每个垂直行业的深度的应用，也不是什么行业都去干，这样小规模的上市公司也承担不起。但是譬如像知识服务用在专利检索，用在整个专利行业，它未来是百亿级的规模，大家需要有更多的服务的时候，公司就把更多的给打造好，围绕着金融，围绕着媒体，围绕着这几个深度的行业去做就好。公司还有可以拓展的行业，现在结合虚拟人和机器人走，悟到更多新的应用，也在拓展公司的新的市场，比如在机器人，现在围绕着养老院场景的精力是最多的，一旦投入进来，公司就能够比别人积累更多的支持。

Q：目前公司在国内还有其他的竞争对手吗？目前他们的进展如何？

A：实际上整个自然语言处理在行业内的应用，大家感知的比较多的是智能客服。智能客服有很多公司围绕着不同的客户平台在提供这样的服务。在电商行业，政府，还有其他的需求比较强烈的这些企业都有相关的公司在做类似的工作。还有就是舆情分析，在各个地方也都有大大小小的公司。实际上整个知识库的沉淀，它的背后是通过语义智能，把知识关联起来以后，通过整个知识图谱的知识库，最后开始做各种各样的训练模型分析。目前来看国内在合同对比，智能内容处理，包括数字人、虚拟人，都有很多公司，但是比较而言，能够持续的对算法进行深入研究的，背后必然需要海量的数据。数据的积累除了不断的获取数据之外，还有承接的历史数据也是很重要的。在这一块公司的优势在于：①从2000年开始就在持续的通过海量的互联网数据，就是开源数据，不断的在沉淀，在积累，打造了多个知识库；②公司的研发团队从93年以来就围绕着搜索、自然语言处理、语音智能积累，所以公司承建的各种大数据应用平台和人工智能的应用平台，相对比较丰富的。

总结一下，围绕着单一的智能客服，舆情分析、智能内容处理，包括虚拟人，在网上都能看到很多公司，但是他们往往都是围绕某一个垂直的行业在做应用。譬如电商的智能客服就是很重要的板块，他们业务收入能够做到5000万、8000万、上亿的也都有，但是如果延伸扩展必须依赖于在行业积累的海量的数据产生的知识库，还有作为企业很重要的一点是要能够降本增效，譬如对数据的处理，标义的目的是为了分词，分词的目的是为了最后通过整个知识图谱形成自己的知识库，很多公司在进行标注的时候，围绕的领域，场景，应用的个体数不太多，大量采用人工标义，这样成本消耗就比较高了。而公司是尽量采用了机器自动标义的方式，因为公司对场景很熟悉，积累沉淀了丰富的知识库，所以在竞争的时候，又能够体现出公司的成本优势。还有对数据的管理，对数据的检索，公司用的海贝搜索数据库是自有的，并且多年以来在这方面不断的在迭代积累，形成了很多的功能，是开源的，在这一块也能够体现出公司的一些优势。

Q：公司各项业务未来的收入增速会是怎么样的情况？

A：公司保守的估计未来的几年整个的战略规划是保证每一年30%以上的增长。公司现在的收入是来自于两部分，一部分是人工智能和大数据的各种各样的平台，面对金融、政府、媒体，是以项目的方式来展开的。但是所谓项目跟那种传统的管理信息系统不一样，公司的交付周期相对来说都比较短，交付的这些数据中台，这些项目是要跟它的应用系统结合起来使用的。这方面收入在公司目前的收入结构中，大概占到60%左右，2021年是63%左右。公司还有63.84%的业务收入是来自于公司的数据服务，也就是把采集到的大量的数据加工成数据产品，最后再输出，譬如智能客服或者舆情分析，实际上公司最终的用户需要的结果还要不断的迭代，迭代的过程中间还要持续靠公司的数据通过公司的算法再形成结果，要提供SaaS服务。公司的战略一直在向SaaS化转型，今年跟去年、2022年跟2020年比较，公司整个的数据的收入在持续的增加。

Q：ChatGPT大概从18年开始到22年就做到了这么大的市值吗，增长非常的快，NLP下游的应用里面有没有可能重现这样的成功。展望一下行业里除了ChatGPT类的应用之外，有没有其他非常有潜力的应用。

A：实际上ChatGPT的估值在认真的往上涨，但是现在在美国是不能算销售收入和具体的产生的价值在哪些地方的，它只不过是典型的人工智能的公司。所以公司一直在看模型训练出来完了以后，能不能够替换人去干一些工作，这就是“数字劳动力”的概念。在国内来说，公司现在所接触到的行业和未来公司想拓展的行业，只要在每个行业深入的投入，都会有大量的想象空间，会有大量的应用。对于用户，只要公司能够提供好的产品，能够满足他的需求，他是愿意维持他买单的。

Q：能否细致地拆一下不同业务方向在公司的整体的营收的占比是什么样的情况？以及这些业务未来的增速的展望？

A：目前公司面临的客户主要是金融、媒体和政府。公司实际上在ChatGPT接下来要延伸的一些应用场景做了仔细的区分，比如在金融行业，主要就是客服、理财，还有就是现在整个金融行业非常愿意投入的营销和风险管控；在媒体和互联网行业，主要就是自动写作，还有自动审稿，还有发布形象代言；政府主要做各种各样的审核检查，便利服务、便企业服务。从收集到的信息来看，他们在信息化方面都是非常愿意投入的。这些在整个的业务收入里面，占比可能在5%到10%左右，实际上并不高，但是未来公司要增长，这是非常大的空间。举个例子，公司在政府主要的业务收入围绕着集约化的网站平台建设，集约化的网站平台建设中很大的一部分是来自于大数据的应用，大数据和人工智能平台和它的业务系统结合。但是现在政务大量在做政策解读政策，这又涉及到公司能够垂直打造的产品“政策大脑”，全国的政府的政务部门的主要工作就是制定政策、执行政策，对政策的监督，所以浙江省在数字化转型的过程中间，整个浙江省的“政策大脑”，“政务运行大脑”都是公司做的，现在有着极大的向全国推广的价值。“政策大脑”不仅仅是交付一个软件，而是每天都要把全国范围内各种各样的政策发布更新完了以后，进行推送。他们在准确舆情的稳定、应用展现方面，最终合成的功能越来越细，知识图谱越来越丰富，便于他们精准的实行社会治理的工作。这方面产品还有“产业大脑”。因为公司有海量的数据获取的能力，围绕着全国的2万多个科技园区打上了电子围栏，对园区内所有的企业进行了各种数据的积累。数据积累完了以后，接下来应用的围绕着政府的招商引资，政府为企业提供服务，及时做预警，还有政府制定各种各样的便利企业，对企业的优惠政策从原来的人找政策变为政策找人，再做精准的投放。无论是训练或者是整个知识的积累都离不开数据要素，公司是通过各种各样的场景应用，真正的让数据产生价值，公司是每一年真正的把数据变成了现金，产生了价值。现在公司也在和交易所深度的沟通，通过挂牌的方式让更多的用户能够感知。原来银行买公司的“产业大脑”的服务，是银行直接跟托尔斯签合同，采用年付费的方式来采购，未来有可能公司把产品挂牌在广州交易所，以后银行直接找交易所买。交易所还有整个数据的合规性的背书，有整个交易各层的常态化，对公司，对交易所，对用户都是受益的。这都是公司的创新。

另外关于公司未来对行业的展望，公司非常看好虚拟人，机器人两种机器人，最后要做一些行业的尝试性的应用，最后成为产业。譬如刚才强调的就是公司对养老的场景的深度的研究。现在公司围绕着养老院该跟老人交流什么，已经在深度的积累知识库和对话库，做模型的训练，跟实体的机器人一结合，就更加能够让养老院的院长有采购的意愿。机器人每一年给公司一些服务费，这是未来公司高速增长的一个维度。

关键词：各种各样人工智能

精彩阅读