专利查全不想以偏概全?两种评估方法都要get!

发布时间: 2019-11-19

作者:王启蒙 专利分析师

在专利检索中,有两个重要的指标,查准率和查全率,这两个指标直接关系着后期专利分析以及报告撰写的质量,是后期分析的基础。

查准率是指专利检索的结果中,检索出的相关专利量与检索出的专利总量的比值,用于衡量专利检索的准确度。

查全率是指专利检索的结果中,检索出的相关专利量与专利库中所有的相关专利量的比值,用于衡量专利检索的全面性。

假设检索出的相关专利量为A,不相关专利量为B,未检索到的相关专利量为C。那么,查准率Z=A/(A+B)*100%,查全率Q=A/(A+C)*100%。

在一定程度上,查准率和查全率是一对矛盾体,难以双全,要想确保较高的查准率,就会牺牲一定的查全率,反之亦然。想在专利检索过程中同时保证查准率和查全率,几乎是不可能的,同时,也是没有必要的。不同的检索报告,对于查全和查准的需求是不同的,比如,对于查新检索和专利无效分析检索,对查准率的要求更高,尽可能降低专利量的总数,将阅读专利的精力集中在相关性高的专利上;而对于防侵权检索和产业分析,对查全率的要求更高,需要尽可能命中所有的相关专利,尤其是对于防侵权检索,如果漏掉了侵权风险高的专利,那后果将是致命的。

对于查准率的评估,是比较容易进行的,可以通过抽样的方法,比如,在检索结果总数中,随机抽取100篇进行阅读,若相关专利数为60,那么该检索式的查准率即为60%。

但对于查全率的评估,无法像查准率的评估那样直接进行,原因在于,查准率的评估中,检索出的相关专利量A、不相关专利量B,都是已知的,而查全率的评估中,未检索到的相关专利量C,由于并未检索到,是不可知的,因此,专利库中的所有相关专利总量A+C,是无法获知的。

因此,需要借助其他的手段间接地进行查全率的评估,关键在于构建一个合适的、可操作的查全样本。

构建重要专利集

目前最常被用到的评估查全率的方法是,基于重要专利集构建查全样本。该重要专利集可以是重要申请人、重要发明人,或者某一年代的专利量。以重要申请人为例,首先,对检索的结果中,以申请人为检索入口,找出检索结果中该申请人的专利量,并阅读,得到检索结果中该申请人的相关专利量a;其次,在专利库中,以该申请人为检索入口,找出该申请人的总专利,通过人工阅读或者恰当的筛选,得出专利库中该申请人的相关专利量b。由此可以得到,该检索式的查全率为a/b*100%。借助重要发明人、申请年代进行查全评估的方法与此类似。

针对该方法,存在以下问题,有些情况下,难以构建重要专利集,比如,个别重要申请人的专利特点与整体专利有较大出入,国内外不同申请人对某些专业用词习惯不同等,又或者,行业内相关重要申请人数据量过多,需要大量的阅读,或者普遍数据量太少,不能构成样本。即便是选取了多个不同国家的重要申请人的专利作为样本,仍然难以反映整体专利的特点。如此构建重要专利集,容易出现以偏概全的情况。

下面介绍另外一种评估查全率的方法,可以避免出现这种以偏概全的情况。

构建查全率极高的“理想”专利集

查全率难以评估的难点在于,无法获取专利库中的所有相关专利。然而,在牺牲了查准率的情况下,通过一些全面的检索手段,采用较为恰当的分类号或者关键词,是可以得到一个查全率极高的专利集的。以碲化镉太阳能电池为例,以碲化镉和其英文表达方式cadmium telluride为关键词进行检索,几乎能囊括所有的碲化镉太阳能电池了,但得到的检索结果中,还包括很多噪声,原因在于,碲化镉除了用于太阳能电池,还用于光谱分析、红外探测器和磷光体等。假设该检索式得到的专利总量为a,对检索结果随机抽样b篇,得到b篇中涉及碲化镉太阳能电池的专利有c篇,那么,可以依次估算出检索结果中碲化镉太阳能电池相关的专利总量d=a*c/b。由于该检索结果中几乎囊括了所有的碲化镉太阳能电池,可以认定d即专利库中的碲化镉太阳能电池相关的专利总量。这样,就构建了一个囊括所有相关专利的查全样本。由于该检索过程中,查准率通常会比较低的,难以用于专利分析,因此,需要进一步修改检索式,提升查准率,才能得到一个便于进行分析的专利集。以碲化镉为例,将碲化镉相关的关键词和太阳能电池相关的关键词做“and”运算,能获得查全率和查准率均相对较高的结果数,假设检索结果数为e,对检索结果随机抽样,评估得到查准率f,那么此次检索中命中的碲化镉太阳能电池相关的专利总量g=e*f。因此,可以得到查全率为g/d*100%。

这种方法,可以避免在构建重要专利集时出现的以偏概全的情况,能够较全面地评估查全率。但这种方法的使用限制较多,主要在于,有些领域,难以通过恰当的分类号或者关键词,获得一个查全率极高的专利集,又或者,构建出的该专利集查准率太低,这样的话,随机抽样的样本专利数量过多,会造成大量的阅读,致使对查全率的评估失去了意义。

第一种方法为主,第二种方法使用条件苛刻

综上所述,本文中,介绍了两种评估查全率的方法,一种是通过重要申请人等手段构建重要专利集,另一种是,采用恰当的分类号或关键词尽可能获得一个查全率极高的专利集。

第一种方法使用更普遍,第二种方法使用较少,仅适合那些可以构建出极高查全率,但又保证一定的查准率的领域。通常来说,第一种方法能够适用大多数领域的专利检索。但对于某些领域,难以选取合适的重要申请人,或合适的重要申请年代,此时,可以尝试第二种方法,能够防止对查全率的评估出现以偏概全的情况,评估出较为准确的查全率。

返回上一页