Adam's Law: Textual Frequency Law on Large Language Models
虽然文本频率已被验证与人类阅读速度等认知活动密切相关,其与大语言模型的关系却鲜被研究。我们首创"文本频率定律",并构建了 TFL / TFD / CTFT / TFPD 四大频率感知技术栈,让 LLM 在提问、训练与系统设计上全面表现更好。
FaceMind 持续探索 LLM 前沿:从基础规律的发现,到训练数据的去污染,再到评测体系的革新。我们的成果已在 ACL、NAACL、EMNLP 等顶级会议发表。
虽然文本频率已被验证与人类阅读速度等认知活动密切相关,其与大语言模型的关系却鲜被研究。我们首创"文本频率定律",并构建了 TFL / TFD / CTFT / TFPD 四大频率感知技术栈,让 LLM 在提问、训练与系统设计上全面表现更好。
数据污染问题在 LLM 开发中几乎不可避免,训练数据常无意中包含评测基准,使得公平评测变得困难。我们不去构造无污染数据集(极为困难),而是提出 LNE-Blocking 框架:通过"污染检测 + 干扰操作"两部分,在可能泄露的数据集上恢复模型在被污染之前的真实表现。
在 LLM 激烈竞争、不断刷新榜单成绩的时代,数据污染让真实评估变得困难。我们提出 Clean-Eval:使用神经模型对受污染的数据进行复述与回译,得到语义相同但表达不同的候选集,从而以更"干净"的方式评测 LLM 的真实能力。