ML (Machine learning) 机器学习: 是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径之一,即以机器学习为手段,解决人工智能中的部分问题。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、游戏和机器人等领域。
Big data 大数据: 或称巨量资料,指的是传统数据处理应用软件不足以处理的大或复杂的数据集的术语。通常可以被定义为大小超出常规软件工具抓取,管理和处理能力的数据集。大数据是一个不断变化的目标;大数据具有Vloume(量大)、Velocity(速度快)、Variety(多样性)、Value(价值)四个显著特点;大数据不是指一个体量很大的单一数据,其关键在于多源数据融合,这是大数据的战略制高点,不是单单在“数据”前加个“大”字那么简单。
Data mining 数据挖掘:检查数据集以发现和挖掘可以进一步使用的数据模式。是一个跨学科的计算机科学分支 。它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。
AI Model 模型:AI 模型(机器学习和深度学习)有助于自动化商业智能中的逻辑推理和决策。这种方法可以使分析更加智能、更快速,并且具备随着数据量不断增加而扩展的能力。一个AI模型是一个程序或算法,它利用一组数据使其能够识别某些模式。这使得它在提供足够信息(通常是大量的数据)时能够得出结论或进行预测。Model被设计用来解决特定的任务或问题。模型通常由输入、输出和学习参数组成,其中输入是模型需要处理的数据,输出是模型产生的结果,学习参数是模型根据数据进行学习和优化的参数。在OpenAI的API中,提供了多种不同的模型,可以用来解决不同的任务。主要有以下几种:达芬奇(Davinci),巴贝奇(Babage),埃达(Ada),居里(Curie)。每种模型都有自己的特点,可以根据具体的任务和应用场景来选择合适的模型。
AI Modeling, AI 建模: AI建模是创建、训练和部署机器学习算法的过程,这些算法基于可用数据模拟逻辑决策。AI模型为支持高级智能方法(如实时分析、预测分析和增强分析)提供了基础。
NLP (Natural Language Processing) 自然语言处理:是人工智能和语言学领域的分支学科。 此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。NPL简单说就是让计算机理解自然语言;圈内有这样一个说法:让计算机理解自然语言是人工智能皇冠上的明珠。长期以来,自然语言处理都被视为人工智能中最具挑战也是最具魅力的问题之一 。
“自然”语言编程(NLC: Natural Language Coding): 这个单词的英文缩写还没有正式考证, 但原理已被行业广泛接受,它从英文翻译而来。自然语言程序设计是根据自然语言句子,进行程序设计的本体论辅助方式。例如,英语,具有用于解释句子的内容,章节和小节的结构化文档,形成了NLP文档,它实际上是一个计算机程序。请勿将自然语言编程与先编写程序,然后使用添加的界面,通过自然语言进行通信的自然语言接口、或语音控制混淆。在NLP中,仅针对句子含义的定义来组织程序的功能。
生成式模型: 生成式模型是一种统计模型,它能够学习给定观测变量 X 和目标变量 Y 的联合概率分布 P(X,Y)。与此相反,判别式模型则是学习给定观测变量 X 时,目标变量 Y 的条件概率分布 P(Y|X)。生成式模型可用于"生成"随机观测实例 X,而判别式模型则用于根据给定的观测 X 来判别目标变量 Y 的值。生成式模型不仅能生成新的观测实例,还能生成新的目标实例,它通过深度学习和自然语言处理等技术,可以生成逼真的文本、图像和音频等内容,被广泛应用于机器翻译、智能对话、创意设计等领域。生成式AI 模型的类型有:1) 生成对抗网络(GANs);2) 变分自编码器(VAEs);3) 循环神经网络(RNNs)和长短期记忆网络(LSTMs);4) Transformer模型;5) 扩散模型(Diffusion Models)。
BERT 基于变换器的双向编码器表示技术(英语:Bidirectional Encoder Representations from Transformers): 是用于自然语言处理(NLP)的预训练技术,由Google提出。是一种基于Transformer架构的预训练语言模型它使用大量未标记的文本进行预训练,然后使用标记的数据进行微调。Google正在利用BERT来更好地理解用户搜索语句的语义。 最初的英语BERT发布时提供两种类型的预训练模型:(1)BERT BASE模型;(2)BERT LARGE模型。两者的训练语料都是BooksCorpus以及英语维基百科语料,单词量分别是8亿以及25亿。BERT的特点在于它可以双向地处理输入序列,从而更好地捕捉上下文中的语义信息。BERT模型的输入是两个序列,一个序列作为模型的输入,另一个序列作为模型的输出,模型需要判断这两个序列是否相互关联。这个过程被称为下一句预测任务。此外,BERT还使用了掩码语言模型,其中模型在输入序列中随机地掩盖一些单词,并要求模型预测这些被掩盖的单词。这个训练任务有助于模型更好地理解语言中的上下文信息。
LaMDA 对话编程语言模型(英语:Language Model for Dialogue Applications): 是Google所开发的一系列对话神经语言模型。第一代模型于2021年的Google I/O年会发表,第二代模型则同样发表于次年的I/O年会。2022年6月,Google工程师布雷克·雷蒙恩(Blake Lemoine)宣称LaMDA已存在感知能力和自我意识,导致该模块获得广泛关注,科学界在很大程度上否定雷蒙恩的说法,并同时引发对图灵测试(测试机器能否表现出与人类相当的智慧水准)效力的讨论。2023年2月,Google发表基于LaMDA架构的对话式人工智能聊天机器人Bard。
Deep learning 深度学习: 是机器学习的分支,是一种以人工神经网络为架构,对资料进行表征学习的算法。深度学习中的形容词“深度”是指在网络中使用多层。机器通过由级联信息层组成的人工神经网络自主模仿人类思维模式的能力。深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。“深度学习”已成为时髦术语,或者说是人工神经网络的品牌重塑。
Data science 数据科学:又称资料科学, 一个跨学科领域,结合了统计学,信息科学和计算机科学的科学方法,系统和过程,通过结构化或非结构化数据提供对现象的洞察。是一门利用数据(资料)学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品,学科范围涵盖了:数据获取、数据处理、数据分析等过程,举凡与数据有关的科学均属数据科学。
Gemini(前称:Bard) : 是由Google开发的生成式人工智能聊天机器人,2024年2月8日更名为Gemini, 最初基于LaMDA系列大型语言模型(LLM),后来基于PaLM2(LLM),现基于Gemini系列大型语言模型。Gemini 是第一个在 MMLU(大规模多任务语言理解)上超越人类专家的模型,MMLU是测试知识最流行的方法之一。Gemini包含 Ultra、Pro 和 Nano : Ultra(超大)适用于高度复杂的任务, 超过了“大型语言模型(LLM)研究和开发中使用的32个广泛使用的学术基准中的30个的最新结果”;Pro 可扩展到各种任务,在 Google 的数据中心上运行,旨在为谷歌最新版本的AI 聊天机器人Bard提供支持,它能够提供快速响应时间并理解复杂的查询; Nano(纳米)设备任务上最有效的模型,设计用于在智能手机上运行,特别是 Google Pixel 8,它旨在执行需要高效 AI 处理的设备端任务,而无需连接到外部服务器,例如在聊天应用程序中建议回复或总结文本。
Meta AI (LLaMA 语言模型):Meta AI 是 Meta Platforms Inc.(前身为 Facebook, Inc.)旗下的一个人工智能实验室。Meta AI 集成了 Google 和 Bing 以获取实时知识,以及 AI 如何帮助人们与创作者和企业互动,在辅助功能和 VR 中的应用。LLaMA 是“大型语言模型 Meta AI” (Large Language Model Meta AI)的缩写,2024年4月18日,Meta推出旗下第三代大语言模型(LLM)Llama 3,称它为“迄今为止能力最强的开源LLM”,并且基于Llama 3,升级了人工智能(AI)助手Meta AI,称它“现在是你可以免费使用的最智能AI助手”。Llama3 三个版本 —— 80 亿参数、700 亿参数和 4050 亿参数,Llama 3大版本的token超过15 万亿。为了未来适用于多语言用例,超过5%的 Llama 3 预训练数据集属于涵盖30 多种语言的高质量非英语数据。但Meta预计,对非英语语种的性能不会和英语的一致。