AI 更喜欢“常见的说法”——一条可量化、可干预的规律,让我们在提问、训练与系统设计上全面提升 LLM 表现,撬动千亿级大模型经济。
虽然"文本频率"已被验证与人类的阅读速度等认知活动密切相关,但其与大语言模型(LLM)之间的关系却鲜有研究。FaceMind 提出全新的研究方向:文本数据频率,并据此构建了一个三部分组成的研究框架。
我们首先提出 Textual Frequency Law(TFL):在提示与微调中,LLM 都更偏好高频文本数据;然后给出可量化的频率检测方法(TFD),并基于频率重构提示(TFPD)与持续微调(CTFT)。
从一条基础定律出发,FaceMind 构建了完整的频率感知方法论,让 LLM 在每一个环节都"更懂人话"。
文本频率定律:LLM 在提示与微调中都偏好高频文本表达。同样语义下,把表达改写为更常见的版本,往往能显著提高模型在下游任务的准确率。
文本频率检测:给出一套指标,量化提示中各种表达的"频率特征"——为后续的重写与训练策略提供可解释的依据。
持续频率微调:利用频率分布,对模型进行有针对性的持续微调,提升其对高频表达的把握和泛化能力,强化对齐效果。
频率感知提示设计:在保持语义不变的前提下,将提示重写为更高频的表达。我们在多个主流 LLM 与基准上验证了它能稳定提升下游任务性能。
在 12+ 主流 LLM、数十个基准上验证,频率感知提示可稳定提升下游任务准确率。
TFD 提供首个文本频率特征的量化框架,让"AI 偏好"从直觉变成可观测的工程指标。
四大技术栈可被模型厂商与应用集成使用,在大模型产业中具有千亿级别的潜在经济价值。
@inproceedings{lu2026adams,
title = {Adam's Law: Textual Frequency Law on Large Language Models},
author = {Lu, Hongyuan Adam and Z.L. and Wei, Victor and Zhang, Zefan and Hong, Zhao and Xiang, Qiqi and Cao, Bowen and Lam, Wai},
booktitle = {Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (ACL)},
year = {2026},
publisher = {Association for Computational Linguistics},
note = {Main Conference. arXiv:2604.02176},
}