快手携「可灵」亮相WAIC，AI技术让想象动起来!

ainet.cn 2024年06月20日

2024年，全球科技焦点再次聚集上海，世界人工智能大会暨人工智能全球治理高级别会议即将于7月隆重开幕。本次会议的主题是"以共商促共享，以善治促善智"，旨在推动全球人工智能的公平、公正和公开发展。快手一直致力于推动人工智能技术的创新与应用，将携其在AI技术应用方面的探索与落地成就，以及其在大模型技术领域的创新突破亮相本次大会。

展览时间：7月4日-7日

展览地点：上海世博展览馆

展位号：H2-C126

在蓬勃而至的大模型浪潮下，快手也在大模型技术和应用创新上持续突破，致力于为全球用户提供更领先、智能、高效的 Al 体验!

快手全面布局了快手的大模型能力矩阵：涵盖了包括大语言模型、文生图大模型、视频生成大模型、音频大模型、多模态大模型等核心技术方向，并基于快手丰富的业务场景，将生成式 AI与多模态内容理解、短视频 /直播创作、社交互动、商业化 AIGC、创新应用等业务形态深度结合，应用前景广阔。

在本次大会中，快手团队将向大众展示大模型核心的研发成果和应用进程，并带来精彩纷呈的智能体验，一起见证技术的变革!

四大自研大模型齐聚WAIC，文生视频技术「可灵」惊艳亮相

「快意大模型(KwaiYii)：理解信息，拥抱智能」

快手自研"快意大模型"(KwaiYii)，沿用了Transformer decoder-only技术架构，设计有13B、66B、175B三种参数规模，在MMLU/C-Eval/GSM-8K/HumanEval等榜单上取得领先结果，开启了短视频场景下大模型落地时代。

「可图：激漾灵感，智绘万物」

可图大模型(KOLORS)是由快手大模型团队自研打造的文生图大模型，具备强大的图像生成能力，能够基于开放式文本生成风格多样、画质精美、创意十足的绘画作品。

“可图”主打三大核心特性：深入的中文特色理解、长文本复杂语义理解及对齐人类审美的精美画质，让用户低门槛创造高质量图像。用户可以通过“可图大模型”小程序亲身体验其强大的图像生成功能。

图生文

中文特色理解

可图基于快手自研的知识图谱构建了上亿级别的中文特色图文数据。结合中文大语言模型的文本表征能力，可图模型能够精准描绘和表达历史典故、传统艺术、风俗习惯以及现代文化元素等中文场景

长文本复杂语义理解

可图建立了长文本中文CLIP模型，并运用多任务联合建模技术进行训练，显著增强了模型在复杂文本理解方面的能力

精美画质

可图研发了针对文生图任务的专有奖励模型，该模型从多个角度(如整体满意度、语义理解能力、画面质量)对文生图模型的生成质量进行综合评估，使得可图模型输出更加接近人类审美标准，从而提升了整体美感和逼真度

「可灵：让想象动起来」

「可灵」大模型(Kling)是由快手大模型团队自研打造的视频生成大模型，具备强大的视频生成能力，让用户可以轻松高效地完成艺术视频创作。

生成大幅度的合理运动

生成较大幅度运动的视频内容，同时符合运动规律。

分钟级的长视频生成

能够生成长达2分钟的视频，且帧率达到30fps。

模拟物理世界特性

能够模拟真实世界的物理特性，生成符合物理规律的视频。

强大的概念组合能力和想象力

能够将用户丰富的想象力转化为具体的画面，虚构真实世界中不会出现的的场景。

电影级的画面生成

能够生成1080p分辨率的电影级视频，宏大场景与特写镜头，都可以生动呈现。

支持自由的输出视频宽高比

同样的内容输出多种多样的视频宽高比，满足更丰富场景中的视频素材使用需求。

「AI关小芳：有灵魂、有情感、AI驱动的多模态数字人智能体」

关小芳是深受快手用户喜爱的快手官方虚拟主播，在快手平台拥有200w+粉丝，由中之人驱动形象资产进行直播。

AI关小芳是由AI驱动，完全使用快手自研快意大模型、ASR、TTS大模型以及数字人驱动生成模型的多模态数字人智能体。可识别用户体征、语音、形态等信息，具有多模态感知能力与智能化决策及执行能力，并以完全拟真的语气、话术、表情、动作等进行回复。关小芳具备低延迟、高拟人表现力的特点，给用户与真人相似的沉浸式交互体验。

（来源：世界人工智能大会）

标签：世界人工智能大会快手

我要反馈