主题
术语表
术语 | 英文 | 说明 |
---|---|---|
自然语言处理 | NLP (Natural Language Processing) | 研究计算机与人类语言交互的技术与方法 |
文本分类 | Text Classification | 将文本划分到预定义类别的任务 |
命名实体识别 | NER (Named Entity Recognition) | 识别文本中具有特定意义的实体,如人名、地名、组织 |
序列到序列 | Seq2Seq (Sequence-to-Sequence) | 将输入序列映射为输出序列的生成任务,如翻译、摘要 |
词向量 | Word Embedding | 将词映射为连续向量表示的方法,如 Word2Vec、GloVe |
Transformer | Transformer | 基于注意力机制的深度学习模型架构,广泛用于 NLP |
微调 | Fine-tuning | 在特定任务数据上继续训练预训练模型,以适应任务需求 |
预训练 | Pretraining | 在大规模语料上训练模型以学习语言知识 |
BLEU | BLEU (Bilingual Evaluation Understudy) | 用于评估机器翻译输出质量的指标 |
ROUGE | ROUGE (Recall-Oriented Understudy for Gisting Evaluation) | 用于评估文本摘要生成质量的指标 |
Attention | 注意力机制 | 模型根据输入各部分的重要性分配权重的机制 |
Token | Token | 文本的最小处理单元,可是字、词或子词 |
分词 | Tokenization | 将文本拆分为 Token 的过程 |
F1-score | F1-score | 精确率和召回率的调和平均值,衡量分类性能 |
词袋模型 | BoW (Bag-of-Words) | 将文本表示为词频向量的方法 |
量化 | Quantization | 将模型参数从高精度数值转换为低精度数值以加速推理 |
剪枝 | Pruning | 移除模型中不重要的参数以减少计算量 |