美国垂直AI独角兽深度研究：Harvey & OpenEvidence

一、核心数据速览

Harvey

法律AI · "律师事务所的操作系统"

估值$110亿

ARR（2025末）$1.95亿

YoY增长290%

总融资>$12亿

用户规模10万+律师 / 1300+机构

核心投资人红杉 · a16z · KP · GIC

成立时间2022

OpenEvidence

医疗AI · "医生的第二大脑"

估值$120亿

年收入（2025）>$1.5亿

估值增速1年暴涨12倍

总融资~$7亿（12个月）

用户规模40%+美国医生 / 1万+医院

核心投资人Thrive · DST · 红杉 · Google · NVIDIA

成立时间2021

二、Harvey：法律AI的"操作系统"

2.1 成功密码

法律是垂直AI的"梦幻赛道"——三高属性：

$500-1500

BigLaw律师时薪
高支付意愿

数亿$

合规失误罚款
高错误成本

25,000+

定制Agent嵌入workflow
高切换成本

2.2 "不自己造模型"的反直觉战略

Harvey的$110亿估值建立在一个反直觉的事实上：它没有自己的基础模型。

"

Harvey didn't build the engine. Harvey built the car.

Harvey曾尝试训练自有法律模型，但当frontier reasoning models在其自研的BigLaw Bench上超越了Harvey的定制模型后，果断放弃。转向多模型编排系统。

模型	BigLaw Bench	核心优势
GPT-5.4	91.0%	直奔任务、结构清晰
GPT-5.1	91.8%	法律推理最强
Claude Opus 4.6	90.2%	深度研究、分析任务
Claude Sonnet 4.5	89.6%	长文本推理、数值计算
GPT-5 (reasoning)	89.2%	复杂问题、长文写作
Gemini 2.5 Pro	85.0%	多步分析、长输出

2.3 工程化的护城河体系

👥

法律工程团队嵌入客户现场，持续打磨Agent

📊

BigLaw Bench自研法律能力评测基准

🤖

25,000定制AgentM&A尽调、合同审查、基金组建

🔄

数据飞轮10万律师使用→反馈→模型routing优化

🔒

合规审计轨迹完整的attorney-client privilege保护

📚

LexisNexis联盟判例法 + Shepard's引注深度集成

2.4 增长节奏

2023 $10M ARR — 起步期

2024 $50M ARR — 5倍增长

2025 H1 $75M ARR — 加速

2025.08 突破 $100M ARR — 里程碑

2025末 $195M ARR — 290% YoY

2026 估值$110亿，进军欧洲（都柏林、巴黎、伦敦75+人）

三、OpenEvidence：医生的"第二大脑"

3.1 反共识的技术路线：小模型 > 大模型

"

大型语言模型就像是世界的'JPEG压缩'——牺牲细节准确性换广度。OpenEvidence选择在医疗领域做'无损压缩'。

— 创始人Daniel Nadler 引用科幻作家Ted Chiang比喻

7B

专训小模型参数量
精度 > 规模

100%

USMLE正确率
325题全对，超越GPT-5

4亿+

同行评审证据点
纯净知识库

0

公网数据接入量
隔离策略杜绝噪声

技术架构核心：RAG集成系统（检索→排序→验证），仅使用PubMed（3600万摘要）、NEJM、FDA/CDC等权威来源，每日同步国家医学图书馆数据库。

3.2 颠覆性的商业模式：广告 > 订阅

维度	OpenEvidence	传统模式（UpToDate等）
对医生收费	免费	$200-500/年订阅
收入来源	精准医疗广告（药企付费）	订阅费
医生渗透率	>40%美国医生	缓慢增长
月查询量	1,800万次（2025.12）	—
年收入	>$1.5亿	—
毛利率	~90%	60-70%
已售广告库存	仅10% → 10x空间	—

3.3 数据飞轮

免费工具

→

医生使用

→

临床查询数据

→

精准广告价值

→

药企广告收入

↑

流量回馈期刊 → 期刊免费/低价授权内容

←

独特之处：期刊方主动低价/免费提供内容，因为OpenEvidence为它们带来海量流量。数据成本趋近于零。

四、中国为什么没有类似企业？

4.1 结构性障碍对比

维度	🇺🇸 美国	🇨🇳 中国
医生执业模式	独立决策者，自主下载App	公立医院体系内，需院方审批
循证文化	强制循证（诉讼风险兜底）	经验辅助为主，标准未统一
数据权威性	NEJM/JAMA/FDA统一标准	多源规范、标准不统一
药企营销	$300亿/年，精准投放需求强	集采压缩营销预算
法律体系	判例法，海量case law检索	成文法为主，需求结构不同
律所付费能力	BigLaw $500-1500/h	远低于美国水平
VC生态	愿给"workflow公司"百亿估值	偏好"有自研模型"的公司

4.2 核心差距本质

⚖️ 法律AI：为什么没有"中国Harvey"

🇺🇸 法律服务市场 ~$4000亿/年
🇨🇳 法律服务市场 ~$800亿人民币/年
🇺🇸 AmLaw 100单所年收入$10-30亿
🇨🇳 头部所年收入体量偏小
🇺🇸 判例法 → 检索AI价值巨大
🇨🇳 成文法 → 检索增量价值有限
🇺🇸 计时收费 → AI省时=省钱
🇨🇳 "一口价" → 效率不转化为节约

🏥 医疗AI：为什么没有"中国OpenEvidence"

🇺🇸 医生是"消费者"，自主选工具
🇨🇳 体制内，个人工具难进核心流程
🇺🇸 NEJM主动授权 → 独家数据
🇨🇳 缺乏NEJM级本土权威源
🇺🇸 药企$300亿营销 → 广告可行
🇨🇳 集采压缩 → 广告天花板低
🇺🇸 PLG病毒传播 → 0→40%医生
🇨🇳 B端为主 → 指数增长走不通

4.3 中国对标公司

公司	领域	定位	阶段
幂律智能"吾律"	法律	AI律师智能体，全流程立案	2026.04推出
北大法宝	法律	传统法律数据库+AI (RAG)	运营中
零假设	医疗	"中国OpenEvidence"，先B后C	A轮近亿
轻松健康"证元芳"	医疗	循证智能体，多Agent协作	2026.03发布
百川智能	医疗	大模型+医疗RAG	转型垂直
蚂蚁"阿福"	健康	AI健康助手，免费模式	3000万用户

五、Claude能否颠覆Harvey和OpenEvidence？

5.1 2026年2月"SaaS末日"事件

Anthropic发布Claude法律插件（Cowork Legal Plugin）后，一天蒸发$2850亿市值

-16%

Thomson Reuters

-14%

RELX

-13%

Wolters Kluwer

$2850亿

单日市值蒸发

5.2 Claude的垂直化布局

领域	产品	发布时间	核心能力
法律	Legal Plugin / Claude for Word	2026.02	合同审查、NDA分流、合规检查
医疗	Claude for Healthcare	2026.01	HIPAA合规、CMS数据库、ICD-10
金融	Claude for Financial Services	2025.10	Salesforce Agentforce集成
生命科学	Life Sciences Connectors	2025.10	Medidata、ClinicalTrials.gov

5.3 颠覆概率评估

Thomson Reuters / LexisNexis

60-70%

Harvey

30%

OpenEvidence

15-20%

5.4 Harvey的防御力

❌Claude法律插件"非常粗糙"，试图从Wikipedia抓取信息

✅Harvey有25000个定制Agent + 客户数据 + 法律工程团队

✅与LexisNexis的判例法/Shepard's引注深度集成

✅机构信任：AmLaw 100多数事务所已使用

✅切换成本：workflow嵌入 + 合规审计轨迹 + 特权保护

5.5 OpenEvidence的防御力

✅极端数据纯净度：仅同行评审来源，不连公网 — Claude无法复制

✅NEJM等顶刊独家授权：内容方主动合作，Claude拿不到

✅USMLE满分：7B小模型超越GPT-5，垂直深度 > 通用广度

✅40%美国医生已建立使用习惯：PLG飞轮已成

✅广告商业模式：Claude不做医疗广告，无同类变现路径

✅仅售10%广告库存：还有10x收入增长空间

核心判断：Claude的法律插件更像是对传统法律信息服务商（Thomson Reuters/LexisNexis）的威胁，而非对Harvey/OpenEvidence的直接威胁。Harvey的壁垒在workflow深度；OpenEvidence的壁垒在数据独家性 + 商业模式差异 + 用户网络效应。

六、核心结论与启示

6.1 成功公式

成功 = 极高支付意愿的垂直市场
× 不自建基模（用最好的frontier model）
× 极深的workflow嵌入
× 独特的数据/内容护城河
× 对的商业模式（适配行业支付习惯）

6.2 中国缺失的核心原因

按重要性排序

支付方缺失 — 客单价和总规模不足以支撑百亿美金公司
制度结构不同 — 公立医院体系、成文法体系 → PLG走不通
数据权威性分散 — 缺乏NEJM/LexisNexis级统一权威数据源
VC偏好错位 — 更看重"自有大模型"而非"workflow深度"
商业模式难复制 — 广告模式在集采背景下天花板低

对中国的启示

不要复制 — 制度土壤不同，照搬必败
找中国独有场景 — 跨境电商合规、出海法律、医保控费
B端优先 — 先服务机构，再反哺C端
不必自建模型 — 专注workflow和数据壁垒
警惕中间层压缩 — "薄应用层"公司会被通用模型淘汰