电商资讯

TowardsDataScience 2023 博客中文翻译（一百六十五）

时间：2024-11-17 丨作者：25QI导航丨关键词：ks业务是什么

不到一年前，大规模语言模型（参数数量超过10亿）还仅限于人工智能研究人员的探索范畴。这一现象背后，蕴含着诸多值得深入研究的课题。这些问题关联着成本与收益、数据来源与处理等多个方面，且与企业效益紧密相连。

大规模语言模型训练的特殊地位

过去，大规模语言模型的训练仿佛是人工智能研究领域的神秘仪式。仅有具备研究实力的组织和个人能够涉足其中。以部分高校和专业研究机构为例，仅有少数专家从事此类工作。这主要是因为这一过程成本高昂，技术要求极高，需要投入大量资源，并非任何人或机构都能轻易尝试。因此，它在商业或大众领域的普及受到了限制。同时，当时人们对这一领域的了解也相当有限，许多人只知道这是一项既神秘又深奥的工作。正如许多前沿科技在最初被发明时，仅限于小范围内为人所知。

“””Question: Which technology was developed most recently?
Choices:
A. Cellular Phone
B. Television
C. Refrigerator
D. Airplane
Answer:”””

如今的时代，万物都在不断变迁。曾经，大规模语言模型的训练显得颇为神秘。然而，随着技术的进步和需求的增长，这种神秘感正在逐渐消散。不少大公司纷纷踏入这一领域，他们看重的是其中巨大的潜在利润。然而，对于普通企业来说，想要加入其中，却面临着诸多挑战。无论是技术上的难题，还是成本上的考量，都是不容忽视的障碍。

成本与收益的权衡

大规模语言模型的训练成本，是不得不考虑的重要因素。若非研究用途，投入其中，必须有明显的潜在收益来抵消高昂的成本。例如，这需要强大的计算资源，包括高性能的计算设备和巨大的能源消耗。如果仅通过提示工程或微调现有模型就能实现目标，那么投入巨额成本进行大规模语言模型训练就显得不合理了。以一些创业公司为例，由于资金有限，若要在该领域进行投资建设，必须考虑如何平衡成本与收益，是先通过租用模型提升效益逐步盈利，还是直接投入大量资金进行自主训练？这确实是一个难以抉择的问题。

收益并非总是一目了然的，亦非立刻显现。它可能是在未来市场中赢得竞争优势这类长远利益。不能仅凭短期数据来估算。在竞争激烈的当下，许多企业在衡量投入与产出时，常显短视，一见前期高额投资便退缩，未能充分思考那些长远且可能无限的收益。

数据来源的多样探索

数据来源的传统方式是互联网和其他渠道，主要收集人类创作的文本。但如今，人们开始思考利用现有的LLM，比如GPT-3，来生成（相对）高质量的训练文本数据集。然而，从互联网获取数据会遇到数据筛选和版权等众多难题。虽然利用现有模型生成训练数据是个新方法，但它也存在不足。比如，生成的数据真实性和可靠性有时难以保证，还引发了伦理上的争议。比如，如果某些生成数据不准确，用在训练中可能会误导，进而影响模型的准确性。

如今，众多企业根据自身状况，正尝试采用各式各样的数据来源组合。部分企业由于业务涉及大量数据，会优先从内部数据进行整合与筛选，随后再融合外部采集等多种方式。例如，那些规模庞大的互联网社交企业，它们内部拥有庞大的用户交互数据，这无疑是一笔宝贵的财富。

计算中的挑战与应对

在模型计算领域，尽管3D并行性能在很大程度上缩短计算时间，但将模型参数分散至多个计算单元时，仍会出现数据冗余的问题。这种现象不仅会降低整体效率，还会造成资源浪费。在企业实际操作中，硬件和资金都相对有限，若不能有效优化资源利用，这种状况将是致命的。例如，一些小型研究机构，由于设备和资金紧张，数据冗余可能导致他们在模型训练过程中过度消耗资源，最终导致项目半途而废。

业务是靠老板维护还是员工维护_ks业务是什么_业务是客服吗

为了改变这一状况，科研工作者们正积极寻求新的技术途径。这或许涉及算法的优化升级，亦或是设备架构的创新设计。然而，这一切都需要时间的积累和大量的实验投入。更重要的是，在调整过程中，必须确保模型准确性和性能不受影响。

数据处理角色协作

数据处理过程中，不同角色扮演着关键角色，彼此间有着紧密的协作。数据分析师和科学家通常利用数据进行仪表板和报告的制作。然而，这些报表往往并不直接面向客户，往往被人忽视其价值。数据工程师在遇到模型问题时，往往需要分析师的智慧来诊断和解决。比如，当模型输出异常数据时，工程师可能不清楚为何会出现这种情况。在现实的企业或研发环境中，团队合作显得尤为重要。在大型项目组中，不同的数据角色可能分散在各个部门，甚至不同地区。

数据工程师有时需与团队外的模型拥有者携手应对模型故障。这种跨团队协作需要成员间保持顺畅沟通。若彼此不懂得对方的工作内容和做法，便可能引发诸多冲突，进而影响项目进度，甚至导致项目失败。

用例与数据映射的作用

在实际操作中，用例与数据的对应至关重要。一旦我们拥有了部分或完整的用例清单，相关专家或流程负责人就能清楚地知道需要哪些数据。这就像是为后续工作勾勒出了详尽的蓝图。以图5为例，用例被映射到广泛的数据领域，便于可视化。然而，在实际操作中，还需进一步细化至更基础的子领域。在识别源系统之前，评估用例所需数据是一项科学的步骤。

完成用例与源系统的映射后，就如同图8中市场营销与销售的情况所示，可以构建起收入情况等多个关键因素的关联。依照步骤1至6的逻辑对数据资产进行排序，有助于企业在数据相关工作中更有效地施展影响力。

大家，我想提个问题。在进行大规模语言模型的训练和数据处理这类繁复工作时，假如您是企业决策者，您会优先考虑降低成本，还是会寻求收益方式的多元化？欢迎点赞和转发这篇文章，并在评论区分享您的看法。

在线随机小姐姐图片换一批