大连职业技术学院 - 现代教育技术中心

一、机器学习

定义：机器学习是NLP的核心技术之一，通过让系统从数据中学习并改进其性能，以完成诸如文本分类、情感分析等任务。

应用实例：支持向量机（SVM）、随机森林等算法在文本分类中广泛应用。

二、深度学习

定义：深度学习，特别是神经网络，如循环神经网络（RNN）、长短时记忆网络（LSTM）、Transformer等，在NLP中取得了显著成效。

应用实例：BERT、GPT等基于Transformer的模型在多个NLP任务中表现出色。

三、分词（Tokenization）

定义：将文本分割成词或标记的过程，是NLP预处理的重要步骤。

工具推荐：NLTK、Stanford CoreNLP等。

四、词性标注（Part-of-Speech Tagging）

定义：为每个词汇标注其词性（如名词、动词等），有助于后续句法分析和语义理解。

工具推荐：NLTK、SpaCy等。

五、词嵌入（Word Embeddings）

定义：将单词转换为数值向量，以便机器学习模型处理。常见算法包括Word2Vec、GloVe等。

应用：提高文本分类、情感分析等任务的性能。

六、评估指标

精确度（Precision）：正确预测为正类的样本占所有预测为正类样本的比例。

召回率（Recall）：正确预测为正类的样本占所有实际为正类样本的比例。

F1分数（F1 Score）：精确度和召回率的调和平均数，用于综合评估模型性能。