20260418-RAG-khoj-my-second-AI-brain

安装并使用khoj RAG系统接入智谱AI作为第二AI大脑

使用docker-compose方式部署khoj

根据khoj官方文档

1
2
3
mkdir /opt/stacks/khoj
cd /opt/stacks/khoj
wget https://raw.githubusercontent.com/khoj-ai/khoj/master/docker-compose.yml

然后修改模板文件中的相关配置项

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
environment:
- KHOJ_DJANGO_SECRET_KEY=KHOJ-DJANGO_STRONG_RANDOM_PASSWORD
# admin panel email / password
- KHOJ_ADMIN_EMAIL=admin_email@home.lab
- KHOJ_ADMIN_PASSWORD=KHOJ-ADMIN-STRONG-PASSWORD
# 设置khoj_domain用来指定我们在浏览器中访问时,需要输入的网址、域名
- KHOJ_DOMAIN=khoj.home.lab
# 不使用https
- KHOJ_NO_HTTPS=True
# 智谱 GLM, 兼容OPENAI接口 {{{1
- OPENAI_BASE_URL=https://open.bigmodel.cn/api/paas/v4
- OPENAI_API_KEY=XXXX_zhipu_api_key_YYY
# “高性价比” 基座模型,价格是 0.5 元 / 百万 Tokens
#- KHOJ_DEFAULT_CHAT_MODEL=GLM-4-Air-250414
# - KHOJ_DEFAULT_CHAT_MODEL=glm-4.5-air
# “轻量高速”,并明确写了它适用于 中文写作、翻译、长文本等通用场景,上下文是 200K
# - KHOJ_DEFAULT_CHAT_MODEL=GLM-4.7-FlashX
- KHOJ_DEFAULT_CHAT_MODEL=glm-4.7
# }}}
# 并且修改启动参数,删除匿名模式,不允许匿名访问
command: --host="0.0.0.0" --port=42110 -vv -non-interactive
1
2
3
4
5
6
7
# 启动 khoj docker服务
docker compose up -d

# 查看服务日志
docker compose logs -f

docker compose restart

配置search model

进入 khoj_admin_panel,默认为http://${KHOJ_DOMAIN}:42110/server/admin;
作为管理本地markdown笔记文档来说,按以下对Search model进行调优。 功能菜单Search model configs,添加一个新的名为default的search model, khoj只会使用第一个名为default的search model;在新建model之前先记录已经存在的Model的id号。 便于区分新建model。按以下参数新建search model,建立完成后删除名为default名的所有旧model; 然后重启 khoj服务

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
# khoj只会使用第一个名为default的search model
name: default

# khoj明确把它作为非英文文档的示例推荐,说明它支持 50+ 语言,并且在消费级机器上有不错的速度和效果
# 对多语言支持,默认的bi_encoder仅支持英文文档;对于中英混合文档使用:
bi_encoder: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

# 对 bi-encoder 召回出的文档做更高质量的重排序
cross_encoder: mixedbread-ai/mxbai-rerank-xsmall-v1

bi_encoder_query_encode_config: {}

# 0.0 更接近“几乎完全重合”
# 1.0 更接近“几乎没有语义重合”
# 0.2~0.25: 更严格,对于我们自己提供的文档有要求,需要文档主题清晰,问题是可能太严格,导致漏召回
# 0.35~0.45: 更宽松,适合我们自己提供的文档写法随意,关键词不固定,,问题是可能匹配的文档太多,噪声太大
bi_encoder_confidence_threshold: 0.30
1
docker compose restart

普通用户使用

访问http://${KHOJ_DOMAIN}:42110可以进入khoj登录页面,直接输入邮箱,然后在ADMIN_PANEL的 功能菜单Users-选中用户-Get Email Login Url,复制URL后,直接从浏览器访问即可; 如此方式在homelab方式下即不会有匿名访问问题,也不需要配置其它登录方式。

配置agents

由于普通用户身份创建agent可能会进入卡死循环,使用管理员面板创建agent。

功能菜单Agents,新建agent;最重要的是prompt;document可以稍后由用户提供

提供documents

使用官方GUI Desktop同步工具 配置URL和用户API后选择文件夹进行同步。同步需要比较长时间, 同步实际完成后用户下功能菜单Search下文档已经全部出现;设置agents附加下所有相关文件。

khoj agents search

智谱BIG-MODEL邀请

我正在智谱大模型开放平台 BigModel.cn上打造AI应用,智谱新一代旗舰模型GLM-5已上线, 在推理、代码、智能体综合能力达到开源模型 SOTA 水平,通过我的邀请链接注册即可获得 2000万Tokens 大礼包,期待和你一起在BigModel上畅享卓越模型能力;链接:


20240115-burpsuite-intercept-rules

burpsuite-intercept-rules

ref: burpsuite-proxy去除无用的流量抓包

针对火狐、google浏览器在burp做截断时出现的噪声流量,添加过滤规则。

1
(mozilla.com|firefox.com|firefoxchina.cn|shodan.io|mozilla.org|firefox.com.cn|mozilla.net|microsoft.com|bing.net|live.com|bing.com|cnblog.com)$

将以上规则添加到Proxy-Settings - Request Interception Rules

add burp intercept request rules