1篇1章2节:AIGC 的发展历程,感知理解世界的奠基阶段

张开发
2026/4/17 5:59:37 15 分钟阅读

分享文章

1篇1章2节:AIGC 的发展历程,感知理解世界的奠基阶段
近年来AIGC人工智能生成内容Artificial Intelligence Generated Content发展迅猛已成为人工智能赋能医药研究的关键技术方向。从早期基础生物数据模拟生成到现阶段多模态医药智能内容创作AIGC 的迭代升级依托于计算机视觉、自然语言处理、深度学习等核心技术的突破性进展。其中对医学影像、生物信号、临床文本等信息的感知与解析能力奠定了 AIGC 在医药领域应用发展的基础。一、感知理解世界的奠基阶段1、达特茅斯会议人工智能的破晓之光20世纪50年代初关于“思考机器”的研究被赋予了多种不同的名称如控制论Cybernetics、自动机理论Automata Theory和复杂信息处理Complex Information Processing。不同的名称反映了当时不同的研究取向。1955年年轻的数学助理教授约翰·麦卡锡决定组织一次学术会议以澄清和发展关于“思考机器”的概念并正式提出了“人工智能”Artificial IntelligenceAI这一术语。这就是1956 年的达特茅斯会议无疑是人工智能发展史上的一个关键起点。会议的组织者——约翰·麦卡锡John McCarthy、马文·明斯基Marvin Minsky、纳撒尼尔·罗切斯特Nathaniel Rochester和克劳德·香农Claude Shannon——后来被公认为人工智能领域的奠基人。当时的一群极具前瞻性的科学家们汇聚在美国新罕布什尔州的达特茅斯学院。他们怀揣着对未知的探索热情共同探讨着用机器模拟人类智能的可能性。在会议上科学家们正式提出了 “人工智能” 这一概念旨在让机器能够像人类一样思考、学习和解决问题。2、控制论早期 AI 发展的理论基石控制论的诞生为 AI 的发展提供了重要的理论支撑。控制论由美国数学家诺伯特・维纳在 20 世纪 40 年代提出它主要研究动物和机器内部的控制与通信机制。控制论强调通过反馈机制来调节系统的行为使系统能够在复杂多变的环境中保持稳定和优化。在 AI 领域控制论的思想被广泛应用于机器人的运动控制和自动化系统的设计中。例如早期的工业机器人通过安装传感器来感知周围环境然后根据反馈信息调整自身的动作以完成精确的操作任务。在航空航天领域飞行器的自动驾驶系统也借鉴了控制论的原理通过不断监测飞行状态并进行调整确保飞行器能够安全、稳定地飞行。控制论的应用使得机器能够更好地感知和响应外部环境为 AI 从理论走向实践提供了关键的桥梁。3、自然语言处理让机器读懂人类语言自然语言处理Natural Language ProcessingNLP作为 AI 领域的重要研究方向之一致力于让计算机能够理解、处理和生成人类语言。NLP 的发展历程充满了挑战因为人类语言具有高度的复杂性和灵活性包含了语法、语义、语境等多个层面的信息。早期的 NLP 研究主要集中在文本处理方面如文本分类、信息检索等。随着技术的不断进步研究人员开始尝试让计算机理解句子的语义和意图。例如基于规则的方法通过编写大量的语法规则和语义模板让计算机能够对文本进行分析和理解。但这种方法存在局限性难以应对复杂多变的语言现象。后来统计机器学习方法被引入 NLP 领域通过对大量文本数据的学习让计算机能够自动提取语言特征和模式。例如基于神经网络的语言模型如循环神经网络RNN和长短时记忆网络LSTM能够处理序列数据在语言理解和生成方面取得了显著的进展。如今NLP 技术已经广泛应用于智能客服、机器翻译、文本生成等多个领域。例如智能客服系统能够根据用户的提问快速准确地提供答案大大提高了客户服务的效率和质量。符号主义 NLP 和统计 NLP 在自然语言处理领域各有特色。符号主义 NLP 基于理性主义源于逻辑学和哲学对大规模数据依赖低主要依靠专家总结的语言知识构建规则和知识库来处理自然语言采用基于规则的处理方式模型由人工手动搭建虽在处理简单明确语言现象时能快速得准确结果且可解释性强但规则构建和维护困难还易出现冲突 而统计 NLP 基于经验主义以统计学为基础高度依赖大规模语料库将处理任务转化为机器学习问题运用统计模型和算法从数据中学习语言规律模型通过数据驱动构建便于扩展和优化不过缺乏对语言深层结构和语义的理解结果可解释性差 。符号主义 NLP1950 年代 – 1990 年代初1950 年代 1950 年艾伦·图灵Alan Turing在论文《计算机器与智能》中提出了图灵测试这是衡量人工智能的重要标准其中涉及自然语言的自动生成和理解。1954 年的乔治城实验Georgetown Experiment展示了机器翻译的潜力成功地将 60 多个俄语句子自动翻译成英语。然而由于实际进展缓慢1966 年的 ALPAC 报告指出机器翻译研究未达到预期目标美国的相关研究经费因此被大幅削减。1960 年代 这一时期开发了一些早期的 NLP 系统如 SHRDLU一个能够处理有限“积木世界”语境的自然语言系统和 ELIZA由约瑟夫·魏岑鲍姆开发的心理治疗聊天机器人。1970 年代 研究者们开始构建“概念本体论”Conceptual Ontology即将现实世界信息结构化为计算机可理解的数据。例如 MARGIE1975 年、SAM1978 年、PAM1978 年等项目。1980 年代 符号主义 NLP 进入鼎盛时期主要研究基于规则的解析、形态学、语义学等。其中包括 Lesk 算法用于词义消歧和 HPSG 语法用于句法解析。统计 NLP1990 年代 – 现在1990 年代 统计 NLP 的发展得益于计算能力的提升和计算语言学领域的变革。IBM 研究团队的工作推动了统计机器翻译的发展。与此同时基于大规模文本语料库的统计方法开始流行如 IBM 对齐模型等。2000 年代 随着互联网的普及大量未标注的语言数据可供利用研究开始关注无监督和半监督学习。2010 年代 2010 年托马斯·米科洛夫Tomáš Mikolov提出了 Word2Vec 词向量模型极大地提升了 NLP 在语义表示方面的能力。深度学习技术尤其是基于神经网络的方法开始在 NLP 任务中占据主导地位。2020 年代 基于大规模预训练语言模型LLM如 GPT、BERT的方法逐步取代了传统规则系统和统计方法成为 NLP 的主流4、计算机视觉赋予机器 “视觉” 能力计算机视觉Computer visionCV就是让计算机学会“看”和“理解”图像。它涉及获取、处理、分析和理解数字图像并从现实世界中提取高维数据以生成数值或符号化的信息比如做出决策。这里的“理解”可以理解为把视觉图像眼睛看到的画面转换成对世界的描述让计算机能像人一样思考和行动。要做到这一点就需要借助几何、物理、统计和学习理论等工具把图像中的信息“拆解”出来。计算机视觉的科学研究关注的是如何让计算机从图像中提取信息。这些图像数据的形式很多比如视频、多台摄像机的视角、3D扫描仪生成的多维数据、LiDAR 传感器的 3D 点云甚至是医学影像。计算机视觉的技术研究则是要把这些理论和模型应用到实际的视觉系统里让计算机真正能“看懂”世界。计算机视觉的子领域有很多包括场景重建、目标检测、事件检测、行为识别、视频跟踪、物体识别、3D 姿态估计、机器学习、图像索引、运动估计、视觉伺服、3D 场景建模、图像修复等。从科学研究的角度来看计算机视觉关心的是人工系统如何从图像中提取信息。这些图像数据可以是视频、多视角的照片甚至是医学扫描图像。而从技术的角度来看计算机视觉则是研究如何把这些理论和模型应用到实际的视觉系统里。机器视觉Machine Vision是计算机视觉的一个分支主要用于工业自动化比如工厂里的质量检测和机器人视觉等。近年来计算机视觉和机器视觉的界限越来越模糊两者的应用逐渐融合。计算机视觉的发展历程计算机视觉的研究可以追溯到上世纪 60 年代当时一些大学正在探索人工智能目标是模仿人类视觉系统让机器人能“看懂”世界。1966 年研究人员甚至认为这项任务可以让本科生用一个暑假的时间完成——只要给计算机接上摄像头让它“描述”自己看到的画面。现在的计算机视觉和当时的数字图像处理研究不同后者主要是对图像做各种滤镜和增强而计算机视觉更关注从图像中提取 3D 结构以便理解整个场景。上世纪 70 年代研究人员开发了很多基础算法比如边缘检测、线条标注、物体建模、光流分析和运动估计这些技术一直沿用至今。到了 80 年代计算机视觉开始引入更严格的数学方法比如尺度空间scale-space理论、基于阴影、纹理和焦点的形状推理以及“蛇”轮廓模型snakes。研究人员还发现很多数学模型可以用同一个优化框架来处理比如正则化regularization和马尔可夫随机场Markov random fields。90 年代研究重点开始倾向于 3D 视觉。投影 3D 重建projective 3D reconstruction的研究推动了相机校准技术的发展。研究人员发现摄影测量学photogrammetry里已经有很多类似的方法比如光束调整bundle adjustment。这促进了从多张图片中重建 3D 场景的研究也带来了更精准的密集立体匹配dense stereo correspondence和多视角立体multi-view stereo技术。同时图像分割问题也开始用图割graph cut方法来求解。这个阶段还有一个重要突破——统计学习技术的引入特别是在人脸识别Eigenface领域取得了实用成果。到了 90 年代末计算机视觉和计算机图形学的结合越来越紧密催生了基于图像的渲染image-based rendering、图像变形image morphing、视图插值view interpolation、全景拼接panoramic image stitching等技术。最近几年计算机视觉迎来了新的突破。研究人员重新探索基于特征的方法并结合机器学习和复杂优化框架。计算机视觉与固态物理学固态物理学是与计算机视觉密切相关的一个领域。大多数计算机视觉系统依赖于图像传感器这些传感器用于检测电磁辐射通常是可见光、红外光或紫外光。传感器的设计基于量子物理学光与表面的相互作用过程也由物理学解释。光学器件是大多数成像系统的核心部分其工作原理由物理学研究。复杂的图像传感器甚至需要借助量子力学来完整地解释图像形成的过程。此外计算机视觉也可用于解决物理学中的各种测量问题例如流体运动分析。计算机视觉与神经生物学神经生物学在计算机视觉算法的发展中起到了重要作用。在过去的一个世纪里研究人员对人类和动物的视觉系统进行了广泛研究探讨眼睛、神经元和大脑结构如何处理视觉刺激。这些研究为计算机视觉的某些子领域提供了灵感使得人工系统能够模拟生物视觉系统的处理方式。许多基于学习的方法如神经网络和深度学习的图像分析与分类技术都来源于神经生物学。例如1970 年代由福岛邦彦Kunihiko Fukushima开发的 Neocognitron 神经网络便是受生物视觉系统的启发尤其是人类初级视觉皮层。计算机视觉的某些研究方向与生物视觉研究紧密相关类似于人工智能研究如何借鉴人类智能以进行信息处理。生物视觉研究的是人类及动物视觉感知的生理过程而计算机视觉则专注于人工系统如何利用软件和硬件实现视觉功能。生物视觉与计算机视觉的相互交流为两个领域的发展都带来了积极影响。计算机视觉与信号处理信号处理也是计算机视觉的重要相关领域。许多用于一维信号如时间序列信号处理的方法可以自然地扩展到二维或多维信号的计算机视觉处理中。然而由于图像的特定特性计算机视觉发展出了许多独特的方法这些方法在一维信号处理中并无直接对应。这些特性使得计算机视觉成为信号处理的一个子领域。计算机视觉与视觉计算视觉计算Visual computing是一个涵盖多个计算机科学学科的总称涉及 3D 建模、计算机图形学、图像处理、计算机视觉、增强现实和视频处理等多个子领域。视觉计算的核心挑战包括视觉信息的获取、处理、分析和渲染其应用领域包括工业质量控制、医学图像处理与可视化、测绘、多媒体系统、虚拟遗产保护、电影与电视特效、计算机游戏等。除了上述计算机视觉的相关领域许多研究课题也可以从数学角度进行分析。例如计算机视觉的许多方法都基于统计学、优化理论或几何学。此外该领域的一个重要方面是其工程实现即如何将现有方法结合软件和硬件进行高效实现以提升处理速度同时保持良好的性能。计算机视觉还广泛应用于时尚电商、库存管理、专利检索、家居装饰和美容行业计算机视觉的应用非常广泛包括但不限于自动检测如制造业中的质量检测身份识别如物种识别系统过程控制如工业机器人控制事件检测如视频监控、人流统计人机交互如手势识别、增强现实农业监测如利用计算机视觉检测草莓病害医学影像分析如肿瘤检测、血流测量导航如自动驾驶、无人机导航信息组织如图像数据库索引增强现实如 3D 平面跟踪AIGC 作为人工智能发展的重要里程碑正逐步改变我们的生产方式和创作模式。感知和理解世界的能力不仅奠定了 AIGC 发展的基础也将成为未来人工智能智能化程度的重要衡量标准。

更多文章