大型语言模型(LLMs)的应用与思考

概述:

该讲座深入探讨了大型语言模型(LLMs)的实际应用、功能以及如何有效使用它们。讲座回顾了LLMs的训练过程,介绍了主流的LLMs及其提供商,并详细讲解了文本交互、上下文窗口、思考模型、工具使用(互联网搜索、Python解释器)、多模态功能(图像、音频、视频)以及一些提升用户体验的功能(记忆、自定义指令、自定义GPTs)。核心观点是LLMs是一种强大的工具,但用户需要理解其工作原理和局限性,并根据任务需求选择合适的模型和功能。

主要主题和重要思想/事实:

LLMs生态系统:

ChatGPT(OpenAI,2022年发布)是首个通过文本界面与LLM交互并迅速走红的应用,被视为“Original Gangster”(OG)和行业先驱。
自ChatGPT发布以来,LLM生态系统迅速发展壮大,涌现出许多其他类似或具有独特体验的应用。

主要参与者包括:
大型科技公司:Google (Gemini), Meta (Meta AI), Microsoft (Copilot)。
创业公司:Anthropic (Claude), xAI (Grok)。
其他国际公司:DeepSeek (中国), Mistral (法国)。
可以通过排行榜(如 Chatbot Arena, Scale Leaderboard)追踪不同模型的性能和排名。

LLMs的工作原理(核心概念):

LLMs最基本的交互形式是输入文本,输出文本响应。
文本(无论是用户输入还是模型响应)在底层被分解成称为“tokens”的小文本块。
整个对话过程是用户和模型共同在一个一维的“token流”中协作写作,这个token流被称为“上下文窗口”(context window)。
上下文窗口是模型的“工作记忆”,模型可以直接访问其中的所有信息。
点击“新聊天”会清空上下文窗口,重新开始对话。

训练过程:

预训练(Pre-training): 模型通过处理海量的互联网文本数据进行训练,目标是预测序列中的下一个token。这个过程使模型获得了关于世界的广泛知识。预训练成本高昂且不频繁,导致模型有“知识截止日期”(knowledge cutoff),对最新信息了解有限。“我的知识来自互联网,我大约六个月前完整阅读过它,但我只记得模糊不清。”

后训练(Post-training): 在预训练之后,模型会根据人类标注的对话数据进行微调,使其扮演助手角色,以问答等形式响应用户查询,并形成特定的对话风格。“我获胜的人格是由OpenAI的人类标注者通过示例编程的。”

模型本身(默认为“zip文件”)是一个完全独立的实体,不包含计算器、解释器、网页浏览器等工具。“你在与一个一兆字节的zip文件交谈... 它具有预训练的知识,具有后训练的风格和形式。”
模型的知识是概率性的和模糊的,对于互联网上提及频率较高的信息,模型记忆更好。“这种知识有点过时,而且是概率性的,有点模糊。互联网上经常提及的事情,我会记得更清楚,而不经常提及的事情,我会记得模糊得多。”

基本的文本交互与局限性:

LLMs非常擅长写作任务(如俳句、诗歌、求职信、简历、邮件回复)。
对于基于模型的已有知识的查询(如常见事实、历史信息),模型可以直接回答,无需工具。例如,美国咖啡馆的咖啡因含量,常见药物的成分等。“我并不是严格保证这是真的,但这只是它对互联网的模糊回忆。”
对于最新信息或小众信息,模型可能不知道,需要通过其他方式(如工具使用)提供信息。
注意事项:模型的回答并非总是准确的,可能存在“幻觉”(hallucinations)。用户应自行验证关键信息。
对话越长,上下文窗口越大,可能分散模型的注意力,降低准确性,并增加计算成本。建议在切换话题时开始新的聊天,保持上下文窗口简洁。
模型种类与付费层级:
LLM提供商通常提供不同大小和性能的模型,对应不同的付费层级。
更大的模型通常更昂贵、更智能、更有创意、知识更丰富,但也更慢。
免费层级通常使用较小的模型(如ChatGPT的GPT-4o mini)。
付费层级(如ChatGPT Plus/Pro,Claude Professional Plan)通常提供对更大、更强大模型的访问权限,尽管可能有使用限制。
用户应根据自己的使用需求和对智能水平的要求,选择合适的付费层级和模型。对于专业用途,可能需要付费访问顶级模型。
建议用户了解自己正在使用的模型,并在需要更高智能水平时考虑付费。

思考模型(Thinking Models):

思考模型是经过强化学习(Reinforcement Learning)额外训练的模型。
通过强化学习,模型学习到解决问题的“思考策略”,类似于人类的内心独白,包括尝试不同想法、回溯、重新审视假设等。
这一训练阶段相对较新,是最近的一大突破。
特点:进行更多“思考”,输出更长的思考过程(有时不可见)。
在需要大量思考的困难问题上(如数学、代码、推理)准确率更高。
思考过程可能需要较长时间(几分钟),因为模型会生成大量token。
并非所有模型都具备思考能力。不同提供商的思考模型名称和可用性不同(如OpenAI的O系列模型,Groq的Deep Search)。
对于简单任务,无需使用思考模型。在遇到非思考模型无法解决的困难问题时,可以尝试切换到思考模型。

工具使用(Tool Use):

LLMs可以通过特殊token调用外部工具,突破其“zip文件”的局限性。

互联网搜索:

模型可以调用互联网搜索工具,访问网页内容,将其放入上下文窗口,从而获取最新或小众信息。
适用于需要实时信息、易变信息或不太常见信息的查询(例如,白莲花第三季发布时间,股票趋势,产品最新功能)。
Perplexity.ai 是一个专注于互联网搜索的LLM应用,用户体验很好。
Python解释器/编程语言:模型可以编写并执行程序(如Python或JavaScript),处理需要精确计算或数据分析的任务。
例如,进行复杂数学计算。
ChatGPT Advanced Data Analysis: 允许模型进行数据分析、绘制图表等。用户可以上传数据进行可视化和分析。
注意: 模型生成的代码并非总是完美的或没有偏见的(例如,对缺失值进行不当假设)。用户应审查代码并验证结果,将其视为“非常初级的分析师”。
不同LLMs的工具可用性不同,缺乏编程工具的模型可能会“幻觉”计算结果。

文件上传:

用户可以直接上传文档(如PDF、文本文件)到上下文窗口,让模型阅读并回答相关问题。
适用于阅读研究论文、书籍章节等。模型可以进行摘要、解释概念,帮助用户理解复杂文本。
讲座中提到使用Claude和ChatGPT阅读Adam Smith的《国富论》和基因组建模论文的例子。
虽然强大,但当前的文件上传和交互流程可能有些笨拙(例如,需要手动复制粘贴章节)。

多模态(Multimodality):

除了文本,LLMs现在可以处理其他模态的信息,通过将这些模态(音频、图像、视频)编码成token。

音频:

伪音频(Fake Audio): 使用外部语音转文本(STT)和文本转语音(TTS)模型进行预处理。用户通过语音输入,系统将其转录为文本供LLM处理;LLM生成文本后,系统将其转为语音播放给用户。优点是输入快捷方便(“别打字,用语音,效果很好”),适用于日常简单查询。缺点是模型本身仍只处理文本。
真音频/高级语音模式(True Audio / Advanced Voice Mode): 音频直接在LLM内部处理,模型可以理解音频token并生成音频token。模型可以直接“听”和“说”音频。优点是功能更强大、更自然,可以理解语调、情感,甚至模仿声音(尽管目前模型可能不愿意这样做)。缺点是当前技术可能还不够完善,模型可能拒绝执行某些复杂音频任务。

ChatGPT和Groq等应用提供高级语音模式功能。
NotebookLM (Google): 允许用户上传文档并生成定制的播客,将文本信息转化为音频形式进行消费。

图像:

LLMs可以接收图像输入(例如,通过上传图片或截屏),并回答关于图像内容的问题。
应用于解读营养标签、血检报告、数学公式、产品成分、解释迷因等。
通常建议先将图像中的关键文本信息转录为文本,以确保模型正确识别。
图像生成(Image Output): 模型可以根据文本提示生成图像(如OpenAI的DALL-E 3)。虽然底层可能是单独的图像生成模型与LLM协同工作,但用户体验是模型直接生成图像。应用于内容创作(如YouTube缩略图、图标)或可视化概念。

视频:

一些应用(如ChatGPT移动应用的高级语音模式)允许模型通过摄像头接收视频输入,并回答关于视频内容的问题。
虽然可能是在底层将视频分解为图像序列进行处理,但用户体验接近实时理解视频。
应用于识别物体、解读场景等。
视频生成: 正在快速发展,一些工具(如Sora, V2等)可以根据文本提示生成视频。
提升用户体验的功能(Quality of Life Features):

记忆(Memory):

ChatGPT特有功能,模型可以学习并记忆关于用户的偏好、信息等,并在未来的对话中参考这些记忆。这些记忆存储在单独的数据库中,并在每次对话开始时添加到上下文窗口。有助于模型随着时间推移更了解用户,提供更个性化的响应。用户可以管理(编辑、删除)这些记忆。
自定义指令(Custom Instructions): 允许用户设置全局性的指示,影响模型在所有对话中的行为、风格和偏好(例如,要求模型避免使用商业术语,或者在学习语言时使用特定的礼貌程度)。

自定义GPTs(Custom GPTs):

允许用户创建一个专门执行特定任务的个性化模型。用户通过提供详细指令和少量示例(Few-shot prompting)来“编程”GPT。这本质上是保存和重用常用的Prompt,节省每次输入完整Prompt的时间。例如,创建用于提取词汇、详细翻译或OCR并翻译对话的自定义GPT。作者认为ChatGPT在语言翻译方面表现出色,优于传统翻译工具,因为它能理解细微差别、俚语,并允许用户进行澄清。

总结与展望:

LLM生态系统发展迅速,功能不断丰富和变化。
ChatGPT是当前功能最丰富、最主流的应用,但其他应用在特定领域可能表现更优或提供独特体验(例如,Perplexity的搜索,Claude Artifacts的创意功能)。
选择合适的LLM需要考虑:模型大小(知识、创意、速度)、思考能力(解决复杂问题的准确性)、可用工具(搜索、编程)、多模态能力(处理图像、音频、视频)、以及个性化功能(记忆、自定义)。
LLMs仍然会犯错和“幻觉”,用户应保持谨慎,尤其是在处理高风险信息时。
鼓励用户积极探索和实验不同的LLMs及其功能,找到最适合自己需求的工具。
关键引文:

“这是Chachi PT,它是Original Gangster,是现任者,也是最受欢迎和功能最丰富的,因为它存在的时间最长。”
“你在与一个一兆字节的zip文件交谈... 它具有预训练的知识,具有后训练的风格和形式。”
“我的知识来自互联网,我大约六个月前完整阅读过它,但我只记得模糊不清。我的获胜人格是由OpenAI的人类标注者通过示例编程的。”
“模型的知识是概率性的,有点模糊。”
“这些token在这个窗口里是昂贵的... 模型可能有点分心... 这实际上会降低模型的准确性和性能。”
“当你付费每月20美元时... 你可以访问GPT 4o... 这是目前可用的旗舰最大模型。”
“存在一类我们称之为思考模型的模型... 这些模型对于数学、代码等困难问题最有效... 在这些情况下,它们可以提高你的性能准确率。”
“我们在chachipd应用程序或其他您正在使用的llm应用程序中引入了一种机制,让模型发出一个特殊的token,它是某种搜索互联网的token。”
“使用工具,比如Perplexity,作为例子... 这样你就不用手动操作了。”
“我个人认为Chachi PT现在提供的服务是最好的,它是最彻底的,阅读起来最舒服,篇幅最长,阅读时最有意义。”
“现在有能力使用和编写计算机程序,Python解释器... 这是极其强大的。”
“模型的答案可能会出现幻觉,所以这是您需要注意的地方。”
“我发现基本上与llms携手并进,极大地提高了我的记忆力,我对这些章节的理解。”
“别打字,用语音,效果很好。”
“我们现在拥有了能够真正在语言模型内部处理音频的技术... 它能直接在音频中听到和说话。”
“Chat GPT确实具有保存信息的功能,它能将信息从一个聊天保存到另一个聊天,但必须被调用。”
“我认为记忆功能是chachibt独有的... chachibt非常擅长电影推荐,所以我认为把这个信息放在它的记忆里会帮助它为我做出更好的电影推荐。”
“定制指令... 您可以在很大程度上修改您的chachibt以及它说话的方式。”
“经验上我发现chachibt在翻译方面相当不错,特别是对于像我这样的初级学习者。”
“存在一个快速增长、变化、转移和蓬勃发展的llm应用生态系统,比如chachibt。”
“llm仍然会犯错,会产生幻觉,所以您必须小心。”