Getting Started with Graphrag
1.回顾RAG RAG分为构建检索阶段和生成阶段. 在构建索引阶段, 我们把结构化的数据转化大模型能识别的向量格式进行存储, 能借助向量数据库高效模糊匹配检索的方式, 非常快速的在庞大的chunk群中检索出最相关的. 在query阶段, 通过用户的问题, 检索出相关的块, 填充prompt最后生成最终的回复.例如让大模型基于检索出来的文本块中的既定事实来回答用户的问题. 2.传统...
1.回顾RAG RAG分为构建检索阶段和生成阶段. 在构建索引阶段, 我们把结构化的数据转化大模型能识别的向量格式进行存储, 能借助向量数据库高效模糊匹配检索的方式, 非常快速的在庞大的chunk群中检索出最相关的. 在query阶段, 通过用户的问题, 检索出相关的块, 填充prompt最后生成最终的回复.例如让大模型基于检索出来的文本块中的既定事实来回答用户的问题. 2.传统...
1. Messages 的种类 在与大语言模型(如 OpenAI 的 GPT 系列)交互时,消息(messages)通常由以下三种角色组成: user:代表用户输入的内容; assistant:代表模型生成的回复; system:用于设定助手行为的初始指令,对整个对话的语气与角色有重要影响。 这些消息以列表形式按顺序组织,用于构建上下文对话。 2. user 消息 ...
1. 使用 Busuanzi 做浏览量统计 一开始我尝试使用 Busuanzi 统计网站访问量。它是一个轻量级的页面访问计数器,可以通过 HTML 标签快速集成。然而,在使用 Lighthouse 进行性能和安全检测时发现,Busuanzi 会调用一些 Cookie,这在某些场景下可能带来隐私和安全隐患。 因此,我转向了更可控的方案 —— LeanCloud。 2. 使用 LeanCl...
1. 起因 之前遇到一个问题:使用 GitHub Actions 自动部署博客时频繁失败。后来发现,将静态网站直接发布到阿里云 OSS(对象存储服务)是一种更简单、稳定的方式,而且能有效避免格式错乱的问题。 至于取消 CDN 的原因,主要是出于成本考虑。由于博客访问量较小,使用 CDN 每天需要支付两三元,一个月下来大约七八十元,性价比不高,因此选择直接使用 OSS 提供的公网地址访问页...
起因 发现有一个月的github action同步不成功, 定位到了具体文章, 推断是md, jekyll, github pages中间有格式冲突. 遂直接部署静态网页, 不依赖github ✅ 你要做的事总览(只做一次的配置 + 日常部署) 🧱 一次性配置(只做一次): 设置 OSS Bucket 开启静态网站托管 绑定你自己的域名到 OSS 为域名开启 CDN +...
deploy.bat 写了一个deploy.bat, 本地构建好Jekyll后增量上传到阿里OSS, 并且刷新阿里云缓存 🧩 所需工具与环境配置 在开始之前,请先安装并配置以下工具: 工具 作用 安装地址或命令 Ruby + Jekyll 用于构建博客 Jekyl...
1.下载ubuntu 22.04.05镜像 可以下官网的 https://ubuntu.com/ 也可以下清华源 https://mirror.tuna.tsinghua.edu.cn/ubuntu-releases/22.04.5/ 2.下载rufus https://rufus.ie/zh/ 3.制作Ubuntu系统启动盘 准备8G或16G U盘, ubuntu 4G左右...
1. 数据准备阶段 在基于文档的 LLM 应用中,数据准备往往是影响最终效果的关键环节。本节将探讨数据准备过程中常见的问题,并介绍构建完整数据流程的建议方案。 常见问题 数据质量低:非结构化文档(如 PDF、网页快照)可能包含大量敏感、过时、冗余或矛盾的信息,甚至存在事实性错误,直接用于训练或问答可能导致模型输出不可靠内容。 多模态信息处理困难:PDF 文档常包含图片、配色、...
1. 实现效果 借助 LangChain 快速搭建本地化知识库,实现用户查询驱动的智能问答系统,支持文本溯源与多模型对接(如 OpenAI、通义千问)。 2. 搭建流程 加载文档,并按照设定规则切分为小块文本 使用嵌入模型将文本块向量化并存入向量数据库 封装语义检索接口 构建调用链路:Query -> 检索 -> Prompt -> LLM ->...
1. 应用开发 在使用大语言模型进行应用开发时,模型偶尔会生成错误的回答(即产生“幻觉”)。 常见的解决方案包括: Prompt 编写不当:设计更具引导性和明确性的提示词可以有效减少模型误判。 缺乏背景知识:模型并非实时联网,缺乏最新或领域特定的信息,此时可采用 RAG(Retrieval-Augmented Generation)方法补充外部知识。 模型能力不足:针对特...