知识库

知识问答智能体提供专业级的知识库全生命周期管理能力,通过智能化的数据治理体系实现多源异构知识的高效整合与动态维护。支持用户上传行业专属文档(如技术手册、政策法规、书籍论文等),构建领域知识中枢,使大模型能够基于权威数据生成精准回复,显著提升专业场景下的回答准确率,同时通过溯源验证机制有效抑制幻觉产生,确保输出内容的可信度与专业性。该板块下,用户可以进行知识库创建,查看、编辑、删除的操作。

创建知识库

通过侧边栏知识库按钮进入知识库管理页面,然后点击“添加知识库”:

  1. 填写知识库信息

    参考下列参数说明填写知识库信息,填写完成后,选择下一步,从本地上传知识文件,上传的文件将会被自动解析。您也可以选择先创建一个空的知识库,稍后再上传知识文件:

    注意:
    1. 不是所有分块方法都支持提取知识图谱,支持提取知识图谱的分块方法包括通用、手册、论文、书、法律法规、PPT;不支持提取知识图谱的分块方法为问答和表格。
    2. 知识库创建后需上传文档,空知识库无法用于问答。
    • 知识库名称:填写知识库名称,必填;
    • 知识库简介:填写知识库简介,如知识库包含的文件内容,使用场景介绍等;
    • 提取知识图谱:开启后,智能体将从该知识库上传的文件中自动提取并构建知识图谱,问答时可基于图谱检索;
      • 实体类型:默认列出了5种实体类型,您可以按需增删,也可以根据知识库的主要内容自定义要抽取的实体,比如“北京超图软件股份有限公司成立于1997年,公司总部在北京,创始人是钟耳顺”,实体类型可以定义为:公司名称、成立年份、总部、人物;
      • 同类实体合并:开启后,将自动把含义相近的多个实体合并为单个实体,如“AI”、“人工智能”、“机器智能”,开启同类实体合并后将会被合并为“AI技术”。
    • 切片方法:提供了8种切片方法,您可以针对不同文档结构按需选择切片方法,最大化保留原始信息的逻辑完整性与语义连贯性:
      切片方法 支持格式与适用场景 文档准备建议
      通用  DOCX、XLSX、XLS (Excel97~2003)、PPT、PDF、TXT、JPEG、JPG、PNG、TIF、GIF、CSV、JSON、EML、HTML。
      适用大多数常见文件
      简单通用,内容结构不复杂的文件
      问答 EXCEL、 CSV/TXT 
      适合 FAQ、题库、客服知识库等问答型数据
      EXCEL格式,则应由两个列组成,没有表头:一个提出问题,另一个用于答案。
      CSV/TXT 格式,以 UTF-8 编码且用 TAB 作分开问题和答案的定界符。
       
      手册 PDF
      适合结构化清晰的PDF手册或操作指南,保留章节完整性,利于理解和检索手册内容
      PDF格式,有明显易区分的章节结构,以最小一级章节标题作为对文档进行切片的节点。 同一部分中的图和表不会被分割。
      DOCX、PDF、TXT
      适合较长的书籍
      由于一本书很长,并不是所有部分都有用, 该分块方法会删除目录、致谢等不重要内容,节省分析计算时间。
      论文 PDF
      适用于学术论文
      按照论文的章节自动切分,理解论文结构和内容
      PDF格式,标准学术论文,论文将按其部分进行切片,例如摘要、1.1、1.2等
      法律法规 DOCX、PDF、TXT
      适合法规、规章制度、指南类文档,精确对齐条款,便于检索与引用
      DOCX、PDF、TXT格式,严格符合法律文件书写格式
      表格 Excel、CSV、TXT 格式的表格数据
      常用于名录、清单、用户信息表
      EXCEL格式,第一行必须是列标题
      列标题必须是有意义的术语,以便大语言模型能够理解。 列举同义词时最好使用斜杠'/'来分隔,甚至使用方括号列举枚举值,例如 :'gender/sex(male,female)'.
      csv / txt 格式,列之间的分隔符为 TAB
      PPT  PDF、PPTX格式。
      演示文稿,保持幻灯片的页面结构,利于逐页理解与展示
      所有PPT文件上传后,都会使用此方法自动分块
    • 词嵌入模型:下拉选择使用的词嵌入模型,用于知识库向量化构建。
  2. 导入知识文件

将本地的知识文件上传到知识库中,支持导入DOCX、PPTX、PPT、XLSX、XLS等多种格式的文件,单个文件最大不超过200MB。
添加文档完成后,在文档管理界面可查看知识库内各个文档的信息,包括文件名称、切片方法、字符数、上传时间、解析状态等信息。另外,也可对文档执行下载或删除操作。文档添加后自动触发解析,解析完成后,文档即可作为后续会话中的知识来源,以供检索。若解析失败,可点击“解析”重新解析。

若在知识库创建时开启了提取知识图谱选项,待文档解析完成后,点击“知识图谱”按钮能够查看该知识库的知识图谱可视化效果。

图:知识图谱可视化效果展示

查看知识库

在知识库页面,以卡片形式展示知识库信息。支持查看知识库名称、简介、创建时间等信息。还可以通过在搜索框中输入知识库名称来检索知识库。

编辑知识库

在知识库页面,点击对应知识库卡片下拉列表中的“编辑”按钮,可对知识库相关参数进行修改;点击知识库卡片进入文件管理页面,可以对知识库中的文件进行统一管理:添加、删除、下载,也可以针对单个文件按需切换文档切片方法,切换后,文档需重新进行解析。

删除知识库

在知识库管理页面,支持按需删除知识库。