AI日报:Hedra图转说话免费开放;Deepmind发布超牛自动配音技
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
Hedra的Character-1开放使用,为创作者提供了通过文本和图片生成说话和唱歌视频的神器,开启了创作革命。它不仅是工具,更是一个全新的创作平台,让每个人都能拥有无限的视频创作机会。
谷歌Deepmind发布了V2A技术,利用视频像素和文本提示生成丰富的音轨,实现同步视听生成。用户可通过文字描述引导音频输出,系统采用自回归和扩散方法生成音频,确保与视频内容完美同步。训练过程中使用AI生成的注释帮助模型理解音频事件与视觉场景关联。尽管存在唇形同步挑战,V2A技术将接受严格评估测试后向公众开放。
B 站最新开源的 Index-1.9B 模型引起了广泛关注,该模型包含基座模型、对照组和对线亿非词嵌入参数量,在多个评测基准上表现领先。
🔍 Index-1.9B base: 基座模型具有19亿非词嵌入参数量,在2.8T中英文语料上预训练,领先同级别模型。
🔍 Index-1.9B chat: 基于base模型通过SFT和DPO对齐后的对话模型,引入互联网社区语料,聊天趣味性更强。
美图公司推出全新AI改图编辑器WHEE V2版本,集合多种实用功能并融入AI技术,为用户提供便捷高效的一站式处理体验。新增AI绘画和AI改图功能,丰富用户编辑选择,支持多类型素材创意呈现。智能选择和提示词功能便利用户自然修改,支持自定义图片尺寸、图层内容,多种形式扩图。具备可视化多图层、精准语义识别、多元风格和细节控制,实现个性化高质量图像处理。
潞晨Open-Sora团队在720p高清视频质量和生成时长上取得了突破性进展,开源项目让视频生成变得简单,受到社区热烈欢迎。英伟达入股的AI公司Lambda Labs也基于Open-Sora模型权重打造数字乐高宇宙,开启创意新天地。技术报告深度剖析了模型训练核心和关键,解决视频模型训练痛点,提升生成质量和速度。
⚙️ Open-Sora团队实现720p高清视频质量和生成时长突破,开源项目简化视频生成流程
百度智能云曦灵数字人平台即将迎来重大升级,提供高效低成本的2D/3D数字人生成,全面打通直播、短视频、对话等多个场景,大幅提升用户体验。曦灵平台展现出令人瞩目的数字人生成能力,快速精准地生成逼真的数字人,为企业、文旅、娱乐等领域带来全新IP创造可能。
Meta最近发布了多项研究成果,包括多模态模型Chameleon、文本生成音乐模型JASCO、音频水印技术AudioSeal等,为AI领域带来了新的技术突破和应用前景。这些成果将推动AI技术的发展和应用,具有重要意义。
🌟 Meta发布了多模态模型Chameleon,支持处理文本和图像混合输入输出,提供新的解决方案。
GenType是谷歌推出的实验性产品,通过Imagen2模型驱动,用户可以创造个性化的字母形式,用于书写各种内容,特别适合制作标题或封面艺术。该工具提供了简单直观的操作界面,让用户快速上手,激发创造力和想象力。用户可以分享保存生成的字母表图片,并在在线画廊中浏览其他用户的作品,获取灵感和创意。
🎨 个性化字母创造: 用户可以输入任何提示,GenType转化为独特的字母表,展现个人创意。
🖌 艺术创作工具: GenType不仅是生成器,还是艺术创作工具,让用户创造无限可能的字母艺术。
📷 分享与保存: 提供方便的分享和保存选项,用户可将字母表保存为PNG格式图片,在社交媒体上分享
英伟达股价飙升,超越微软、苹果和谷歌,成为全球市值最高的公司。公司计划推出新的Blackwell GPU架构,首席执行官表示将是世界上最强大的芯片,并每年发布新的AI芯片。英伟达在2024年股价上涨160%,市值达到3.335万亿美元。
💻 英伟达计划推出Blackwell GPU架构,首席执行官称将是世界上最强大的芯片,每年发布新的AI芯片。
苹果公司宣布推出新的人工智能培训课程,面向开发者学院的学生、导师以及校友等。这标志着苹果在AI技术领域的开放态度和重视程度逐渐增加。
Luma发布的Dream Machine视频生成工具引发了关于模型透明度和数据来源的质疑,特别是涉嫌抄袭迪士尼作品。这引发了人们对这类模型最大的关注点之一,缺乏透明度。
💡 Dream Machine被吹捧为电影制作未来,提供高质量逼线、AI画师接单被“抓包” 小红书博主“鉴Ai”视频获赞2.9万
小红书博主“天线嫂嫂(内裤大王)”在约画时发现画师使用AI技术,引发社交媒体关注。画师未提供线稿,博主怀疑作品为AI制作,揭露画稿盗图。AI绘画技术逼真度提高,难以区分人类和AI作品。AI技术发展带来版权和真实性挑战。
Snap 在 Augmented World Expo 上展示了早期版本的实时设备端图像扩散模型,为 AR 创作者设计了生成式 AI 工具。该模型体积小且快速,能实时重新渲染帧。Snap 的团队致力加速机器学习模型,计划推广给创作者。Bobby Murphy 表示,这标志着增强现实迈入新方向,重新思考 AR 创造方式。Lens Studio5.0 提供新的生成式 AI 工具,帮助开发者更快创建 AR 效果,节省时间。
人工智能在工作场所的影响逐渐显现,一名负责内容创作团队的领导被ChatGPT取代后最终也被解雇,引发思考人工智能对就业市场的影响。
最近Epochai发布的研究报告警示AI界可能面临数据枯竭危机。随着大模型如ChatGPT消耗公开训练数据,数据可能在2026年到2032年间耗尽。报告提出四种新方法应对数据荒,包括合成数据、多模态学习、私有数据利用和与真实世界交互学习。
🌟 Epochai提出四种新方法,包括合成数据、多模态学习、私有数据利用和与真实世界交互学习。
研究团队提出了名为L4GM的大规模4D高斯重建模型,能从单视角视频输入生成动画对象,实现令人印象深刻效果。模型基于创新性数据集和简化设计,短时间内完成单向传递,保证高质量输出。
谷歌Deepmind的研究人员表示,AI系统具备开放式的能力是发展超级智能的关键。单纯依靠不断扩大的数据集并不足以实现超级人工智能现有的规模化策略往往集中在使用更多的计算资源和数据。OpenAI的Q*模型也可能旨在结合类似于谷歌Deepmind的AlphaZero与语言模型的想法,类似于微软研究人员最近展示的“EverythingofThought”。
16秒720p高清视频,现在人人可免费一键生成!无论是精致的人物肖像:还是炫酷的科幻大片:△画质已压缩亦或是生动有趣的动画:流畅的变焦效果:以上生成效果,全部来自免费开源的潞晨Open-Sora。从3月发布以来,潞晨Open-Sora一直热度不减,GitHub上揽星已经17.5K。传送门文生视频爆火后,潞晨Open-Sora持续开源为该领域发展做出了贡献。
DeepSeek-Coder-V2是一个开源的Mixture-of-Experts代码语言模型,性能与GPT4-Turbo相当,在代码特定任务上表现卓越。它在DeepSeek-Coder-V2-Base的基础上,通过6万亿token的高质量多源语料库进一步预训练,显着增强了编码和数学推理能力,同时保持了在通用语言任务上的性能。AIbase拥有一个全面的国内外AI产品数据库,收录了超过7000个出色的人工智能网站和产品,覆盖了40多个不同的领域,如Ai绘画生成、Ai文案写作、Ai视频编辑、Ai智能营销等。
腾讯混元团队联合中山大学、香港科技大学推出了一款全新的图生视频模型,名为Follow-Your-Pose-v2。这一模型在视频生成领域实现了从单人到多人的跨越,能够处理人物合照,让所有人都能同时在视频中动起来。混元DiT模型的使用门槛降低,用户可以在HuggingFace的官方模型库中用三行代码调用模型。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:、百度文心大模型学习机“小度学习机Z30”发布这篇文章介绍了百度旗下的小度科技推出的首款基于文心大模型的学习机Z30,旨在重新定义AI老师,通过先进的AI技术助力孩子主动�
【新智元导读】刚刚,谷歌DeepMind、JHU、牛津等发布研究,证实GPT-4的心智理论已经完全达到成年人类水平,在更复杂的第6阶推理上,更是大幅超越人类!此前已经证实,GPT-4比人类更能理解语言中的讽刺和暗示。在心智理论上,人类是彻底被LLM甩在后面了。她在牛津大学获得了考古学与人类学的学士学位。
最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个token预测生成有用的表征,从成功地生成多种模态的新序列,从文本、蛋白质、音频到图像,甚至是状态序列。能够同时生成多种模态输出的多模态模型一般是通过某种形式的词汇扩展来实现的,即在预训练阶段或在后期微调阶段进行跨模态对齐。更多研究细节,可参考原论文。
腾讯混元团队联合中山大学、香港科技大学宣布推出全新图生视频模型Follow-your-Pose-V2”,实现单张图片多人动作驱动。用户只需输入一张人物图片和一段动作视频,模型便能巧妙地让图片中的人物跟随视频中的动作舞动,生成的视频长度可达10秒。模型还具备强大的泛化能力,无论是年龄、服装各异的人物是背景杂乱的场景,亦或是动作复杂的视频,它都能轻松应对,生�
JASCO是一个结合了符号和基于音频的条件的文本到音乐生成模型,它能够根据全局文本描述和细粒度的局部控制生成高质量的音乐样本。JASCO基于流匹配建模范式和一种新颖的条件方法,允许音乐生成同时受到局部(例如和弦)和全局(文本描述)的控制。通过信息瓶颈层和时间模糊来提取与特定控制相关的信息,允许在同一个文本到音乐模型中结合符号和基于音频的条件。
prism-alignment 是一个由 HannahRoseKirk 创建的数据集,专注于研究大型语言模型(LLMs)的偏好和价值观对齐问题。数据集通过调查问卷和与语言模型的多轮对话,收集了来自不同国家和文化背景的参与者对模型回答的评分和反馈。这些数据对于理解和改进人工智能的价值观对齐至关重要。
Unstract是一个无代码的LLM(大型语言模型)平台,它允许用户通过简单的无代码方法启动APIs和ETL管道来处理非结构化文档。它支持从多种云文件/对象存储系统中读取复杂文档,并将结构化数据写入流行的数据仓库和数据库。Unstract利用大型语言模型的能力,超越了传统的RPA(机器人流程自动化),实现了机器到机器的自动化。
Index-1.9B-Character:19亿参数规模的角色扮演模型,支持few shots角色定制。
Index-1.9B-Character是由Index团队自主研发的大型语言模型,专注于角色扮演领域,拥有19亿参数规模。该模型支持用户通过上传角色对话语料实现快速的角色定制,具备较高的角色一致性、对话能力和角色扮演吸引力。在CharacterEval权威benchmark评估中,整体均分排名第九,表现优于同量级模型。
Llama3-70B-SteerLM-RM是一个70亿参数的语言模型,用作属性预测模型,一个多方面的奖励模型,它在多个方面对模型响应进行评分,而不是传统奖励模型中的单一分数。该模型使用HelpSteer2数据集训练,并通过NVIDIA NeMo-Aligner进行训练,这是一个可扩展的工具包,用于高效和高效的模型对齐。
ComfyUI是一个开源AI模型,致力于推动AI工具的民主化和开源化。它由一个团队创建和维护,旨在为AI社区提供易于使用、安全和可靠的工具。ComfyUI支持通过各种工具,如节点管理器、节点注册表、命令行界面、自动化测试和公共文档来支持其生态系统。团队相信开源模型将在长期内胜过封闭模型,并致力于通过社区驱动的方式推动AI工具的发展。
L4GM是一个4D大型重建模型,能够从单视图视频输入中快速生成动画对象。它采用了一种新颖的数据集,包含多视图视频,这些视频展示了Objaverse中渲染的动画对象。该数据集包含44K种不同的对象和110K个动画,从48个视角渲染,生成了12M个视频,总共包含300M帧。L4GM基于预训练的3D大型重建模型LGM构建,该模型能够从多视图图像输入中输出3D高斯椭球。L4GM输出每帧的3D高斯Splatting表示,然后将其上采样到更高的帧率以实现时间平滑。此外,L4GM还添加了时间自注意力层,以帮助学习时间上的一致性,并使用每个时间步的多视图渲染损失来训练模型。
Olvy AI是一个先进的客户反馈管理平台,它通过AI技术整合来自不同渠道的客户声音,包括调查、访谈、评论、支持票据和销售电话等,帮助企业快速获取洞察力。它通过自动化和智能化的方式,将客户反馈转化为可操作的见解,帮助企业做出更明智、更快速的决策。Olvy AI的主要优点包括提高团队生产力、节省时间、提供精准的数据驱动见解,以及保持与用户需求的紧密联系。
VidAU AI Video & Audio Creator是一个AI驱动的视频和音频生成平台,它通过简化从构思到制作的整个内容创作过程,使得用户能够轻松创建引人入胜的视频。平台提供多种AI工具,包括视频更换、视频翻译、字幕翻译和去除、AI虚拟形象发言人以及文本转音频等功能,帮助用户提升视频内容的质量和吸引力。VidAU支持120多种语言的视频翻译,覆盖150多个国家,能够节省90%以上的视频制作时间。
The Prompt Report 是一份系统性调研报告,专注于生成式人工智能(GenAI)的提示技术。它通过结合人类和机器的努力,从多个数据库中处理了4797条记录,提取出1565篇相关论文。报告提供了58种基于文本的技术,并补充了多模态和多语言技术的广泛集合。其目标是提供一个易于理解和实施的提示技术目录,并回顾了作为提示扩展的代理,包括评估输出和设计有助于安全性和安全性的提示的方法。此外,报告还应用提示技术在两个案例研究中进行了实践。