🗒️“知识检索”系统:从公域到私域
00 min
2023-8-4
2024-3-1
type
status
date
slug
summary
tags
category
icon
password
信息爆炸的现如今,该怎么在浩如烟海的信息中快速地找到一个能为你所用的知识点呢?

知识检索

你可能学过计算机的数据结构与算法,知道怎么平衡好时空复杂度,用合适的数据结构与算法去查找到对应的数据;没学过也没关系,因为你至少用过百度、用过B站搜索……
抽其本质来看,“查找”到一个你所需要的数据,就是通过一个 key(你叫索引、叫钩子都行),拿到对应 value 的过程,专业点说叫“检索”;在知识的检索中,key 就是一个个知识点的关键词(keyword)或者分类,valule 就是相关的所有知识点。
这篇文章,我将分享我对“知识检索”系统搭建的一些心得,希望对阅读本文的你有帮助~

系统概览

话不多说,先给大家看看我的知识检索系统的“架构设计”。
notion image
你可能看得一头雾水,没关系,我一个个拆解开来说。主要分为这几个部分:
  1. 索引区(Index)
  1. 私域(Trusted Domain)
  1. 公域(Internet, Public Domain)
而我这套系统的亮点就在于 2 中的“私域”,即“授信域”。我们接下来逐一介绍。

索引区

先讲讲“索引区”。
索引区起到的作用,正如前文所述,负责完成“关键词”到“知识点”的映射。但具体是怎么实现这样的映射和索引构建的呢?
我将分为两个大脑介绍:“人脑”和“知识库”。

第一大脑 —— 人脑

第一个“人脑”就是我们的第一大脑,即人脑。
你可以简单地把人脑抽象成一个计算机内存,首先它很快,毕竟就长在你身上,就像是个local cache;同时它也不那么可靠,毕竟不是持久性存储,而且容量十分有限,但是这并不影响它成为索引构建的主力军。
人脑不是很死板的记忆机器,而且我相信大部分的记忆能力都不好使,所以记忆这种事情,就交给存储专业户——知识库(下面会说)。专业的事情,就要给专业的人做,而人脑的强大,就在于它的思考与联想能力,我们这里主要使用到的就是人脑的联想能力,我们需要它给出检索的key。
检索的key,可以来自于你的记忆,比如:说你突然想到“MECE原则”,那这个MECE就是你的key,这靠的是“印象”。
当然,很多情况下不可靠的人脑并不能直接得出这个key,需要通过联想的能力把这个key给调出来。比如,今天老板把一个项目交给我来负责,我需要按项目目标给出项目方案,我尝试列举着一个个可执行的点去达成这个目标,不断地往下拆分,当我发现要将具体的、原子的任务落到具体的人身上时,突然想到:“咦!这不MECE吗?”这时key就是被你使用联想能力调用出来的。
我在图中画的 🧠 ,就是代表人脑。下面的“Algorithm”、“Time Management”、“ChatGPT”就是key(只是举个例子,不是说一定是这3个)。
这个步骤,根据我的经验,并不用太刻意地做什么,人脑自然会记住它觉得重要的 keyword,这一步的索引构建是一个比较自然的过程。
需要重点关注的是,要给自己留足思考的时间,多做联想,寻找各种信息、知识之间的关联关系。此外,还需要注意,人脑的容量是有限的,需要控制好信息输入,勇于放弃不值得你关注的信息,focus 在你近期需要关注的领域上。

第二大脑 —— 知识库

第二个“知识库”就是我们的第二大脑,我使用的是主打All In One的Notion。
知识库作为第二大脑存在,就是为了突破人脑容量和记忆持久性限制的。理论上只要Notion的业务还在running,你放进知识库的知识将持久性的存在;而且现在的Notion免费版是不限制Block的,你可以理解成你可以无限制地往里边加东西。
索引构建的这个过程,也让知识库帮你完成。你要做的,就是往里面输入知识;作为使用者,你不用操心怎么通过一个key,搜出相关的知识,你只管存和搜。你也可以粗浅地把第二大脑当成你大脑的外挂,移动硬盘什么的。
具体使用原则,就是好好利用好人脑的处理能力、思考能力、关联能力,找到合适的keyword之后,丢到被你信任的、平日里一直在管理的知识库中。
notion image
当你打通第一大脑和第二大脑时,关键词与知识之间的关系会再次加强,第一大脑的联想能力和印象会增强,第二大脑可能也会有新的衍生的增量知识。
这时候,你可能会有疑问:找关键词我懂,但为什么找到词之后不直接去百度/Bing/Google等搜索引擎搜,而要去知识库搜索?我还得搭个知识库?下面的“私域”我会解释。

私域

这里的私域,也叫授信域。需要区别的是互联网运营里的私域,不是那个意思。为什么我这里叫私域,因为这是你亲自manage的、知识经过你亲自沉淀出来的、亲自生产/收集的知识库。
这个系统的亮点,就在于它“授信”。这些知识是经过你消化的,已经成体系的;相比于“公域”上的知识,那些是未经消化的,甚至是质量待验证的。
看到这里,你应该能懂我的意思。经过一轮沉淀后,知识的杂质已经被过滤掉了,是一个可搜且可用的状态,而互联网上的其他信息,只能保证可搜。
而且这些知识被你处理过,脑子里是有“缓存”的,你处理起来可以更快,因为你有印象,在看到更多的上下文时会被激发。
所以,无论是从速度还是质量上,这个“私域”都是更胜一筹的。但它也有缺点,就是面不够广,因为你的认知有限,关心的领域也有限,不可能啥都有。
“私域”和“公域”是有一定转化过程的,当你要找的知识在“私域”找不到的时候,自然要去“公域”补货,沉淀完之后,再放入“私域”。
你可以反驳我说:“我浪费这么多时间去学习知识管理,还要学个Notion这样的软件,太折腾了,不值得。”如果你只做一次两次的知识检索,那无所谓;但是这是一个高频需求,但就ROI的角度来说,这绝对值得,这是一个高价值的杠杆。
这个“私域”系统的核心,就在于吃“复利”,缩短重复路径。下面我给大家介绍一下我在Notion中的实际应用和最上面的系统架构图的对应。
notion image
1. 领域知识
对应的是“Domain Knowledge”,这一部分就是你所关注的各个领域,比如:计算机、AIGC、音乐制作、知识管理、商业、投资……
这一部分是体系化的知识,有各种结构化的知识,或成树、或成网,交织在系统中;Notion还可以内嵌和SQL数据库使用一致的Database,非常好用(后端狂喜)。
notion image
2. flomo
这个是少楠老师做的一个“不完美”的知识工具,使用它你需要学习卢曼的卡片笔记法,或者看看flomo官网的101,才能比较好地充分使用它。
简单来说,它适合记录你零散的想法、或者碎片化的知识,这些知识不成体系,最多就是有标签,能做引用关联。你需要将这一个个的原子想法,拼装组织,像搭积木、写程序一样,组织各个模块,搭建出最后的一整块知识。这一个个的知识卡片,就是知识库的地基、砖头。
notion image
我的flomo邀请码:MTA3NDg0Ng 也可以直接访问这个链接注册:https://v.flomoapp.com/register/?MTA3NDg0Ng
至于怎么让flomo可搜,你可以直接使用flomo应用内置的,也可以像我一样,直接放在notion里,以API的形式打通(Notion API的强大!)。
notion image
3. 微信读书
微信读书是我使用的比较多的一个阅读器了,它有多好用用过的都知道,我就不多说了。我比较支持并推荐大家多做划线、批注(当然也别滥用,否则高质信息密度会下降)。
notion image
我同样是使用Notion API的能力,打通了微信读书笔记和Notion。
notion image
4. RSS
你可以理解成是一个feed的聚合器,它可以让你只关注你想关注的人和事,也不用打开各种APP。类比高德,是各种打车平台的聚合器,是个超平台;RSS就是个超feed。我使用的是Notion Feed(同样,你可以使用Innoreader这样的老牌RSS,不过需要魔法才能上)。
严格来说,RSS算半私半公,你选择相信的是内容源(人、专栏等),但是内容你可能并没看过,只是基于信任,你选择相信它的质量,并导入知识库中。
notion image
你完全可以扩展你的想象力,Notion是一个All In One的超大平台,你可以以各种方式把你想要的信息灌进去,并且把知识打通。
而我上面列举的每个usecase,除了“领域知识”是我亲自整理放进去的,其他的都是靠着API来做自动化,这样一来效率也高了不少。
当然,每条flomo里的memo(原子卡片笔记)和微信读书的批注都是我写的,RSS的关注也是我挑的。这些知识都是经过我手的。

公域

这个就是大家所熟知的去搜索引擎上搜内容了。搜索引擎的技巧我就不说了,万能的B站、油管我也不说了,我就分享一些其他方面的检索心得吧~
  • 如果你关心“Why”,而且它偏理论,你需要被长篇内容“说服”,那你可以上知乎
  • 如果你关心“How”,而且它偏实践,你需要看短篇内容就能快速上手,那你可以上小红书
  • 如果介于上述二者之间,你可以看看“少数派”
  • 如果你在检索你的内心,在探索新的可能性,试试AI

主动!主动!主动!

不仅人脑容量有限,接受信息的带宽也是有限的。所以,我们对于信息、知识的输入,一定要主动地把控好。
我的建议就是,不再接受“推X”。什么意思呢?
第一种,就是不接受被动的“推荐”,即不再去看推荐feed,比如:抖音、B站、小红书等app的推荐页面,这是被动的在接受信息,而非主动地摄入。你别杠说推荐的都是你爱看的,你所关注的,流失的除了你的注意力,还有你时间。
第二种,就是不接受被动的“推送”,app推到手机里的通知、短信、站内信,看到就算了,尽可能别点。
包括各种微信消息,该关闭消息通知的都关闭。微信群可以使用仅关注人的功能,关注你需要关注的人,现在的微信群可以设置四个。
而且不是所有消息都需要你马上回复,没有什么事情火急火燎到需要你马上回复微信的,真正着急的事情不会以微信的形式,或者不止微信一种形式通知到你的。
总结一下:关注你所关心的,主动地控制信息输入,也是在做时间/注意力/精力的管理。

写在最后

搜索引擎不是检索的全部,AI更不是。