FACEMIND RESEARCH

研究中心
LLM 前沿·顶会发表

FaceMind 持续探索 LLM 前沿:从基础规律的发现,到训练数据的去污染,再到评测体系的革新。我们的成果已在 ACL、NAACL、EMNLP 等顶级会议发表。

FaceMind
FaceMind Research · LLM 前沿论文与学术成果

全部论文

ACL 2026 Main Conference arXiv:2604.02176

Adam's Law: Textual Frequency Law on Large Language Models

FaceMind Corporation · The Chinese University of Hong Kong

虽然文本频率已被验证与人类阅读速度等认知活动密切相关,其与大语言模型的关系却鲜被研究。我们首创"文本频率定律",并构建了 TFL / TFD / CTFT / TFPD 四大频率感知技术栈,让 LLM 在提问、训练与系统设计上全面表现更好。

PUBLISHED IN
ACL 2026
Main Conference · 2026
核心贡献 首创文本频率定律(TFL),及四大频率感知技术栈,撬动千亿级大模型经济。
Findings of EMNLP 2025 contamination · evaluation

LNE-Blocking: An Efficient Framework for Contamination Mitigation Evaluation on Large Language Models

FaceMind Corporation · Zhejiang University · University of Zurich · The Chinese University of Hong Kong · Westlake University

数据污染问题在 LLM 开发中几乎不可避免,训练数据常无意中包含评测基准,使得公平评测变得困难。我们不去构造无污染数据集(极为困难),而是提出 LNE-Blocking 框架:通过"污染检测 + 干扰操作"两部分,在可能泄露的数据集上恢复模型在被污染之前的真实表现。

PUBLISHED IN
EMNLP 2025
Findings · 2025
核心贡献 首个面向"数据污染缓解评测"的高效框架,让被污染的 LLM 也能被公平评测。
Findings of NAACL 2024 contamination · paraphrase

Clean-Eval: Clean Evaluation on Contaminated Large Language Models

FaceMind Corporation · Shanghai Jiao Tong University · Tsinghua University · University of Edinburgh

在 LLM 激烈竞争、不断刷新榜单成绩的时代,数据污染让真实评估变得困难。我们提出 Clean-Eval:使用神经模型对受污染的数据进行复述与回译,得到语义相同但表达不同的候选集,从而以更"干净"的方式评测 LLM 的真实能力。

PUBLISHED IN
NAACL 2024
Findings · 2024
核心贡献 通过复述与回译生成等价候选,缓解评测数据污染,被广泛引用的早期工作。