新闻

揭秘FancyTech:“强还原”和“超融合”背后的算法创新

2024-08-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

在最近的技术变革浪潮中,AIGC(人工智能生成内容)正在成为人们自我表达和创作的重要工具。这一波技术革新的推动力并非仅是庞大的算法模型,而是深度定制的解决方案,专注于特定领域的需求。在过去两年中,AIGC的发展速度超出了许多人的预期,其应用已从文本生成扩展到图像和视频的全领域。
最近,《机器之心》专访了一家名为FancyTech的中国创业公司。该公司通过提供标准化的商业视觉内容生成产品,不仅迅速扩张了市场,还在实际应用中率先证明了垂直模型的优势。
《机器之心》还详细介绍了FancyTech最新发布的视频垂直模型DeepVideo,该模型成功应对了如何在视频中精准还原并自然融合商品的挑战,确保商品在动态中保持不变形。
FancyTech 的垂直模型基于开源的底层算法框架,叠加自有的数据标注重新训练,仅需几百张 GPU 持续训练迭代即可取得好的生成效果。相比之下,「商品数据」和「训练方式」这两个因素对于最终的落地效果更为关键。
在积累了大量的3D训练数据基础上,FancyTech引入了空间智能的思路指导模型的2D 内容生成。在图像内容生成方面,团队提出了「多模态特征器」以确保商品的还原,并通过特殊的数据采集保证商品与背景的自然融合。在视频内容生成方面,团队重新构建了视频生成的底层链路,定向设计框架和进行数据工程,以商品为中心生成视频。
此外,《机器之心》深入揭秘了FancyTech如何将空间智能的研究思路应用于视觉生成模型。与传统生成模型不同,空间智能通过分析大量传感器数据,进行精确标定,从而使模型能够感知和理解现实世界。
FancyTech采用激光雷达扫描代替传统摄影棚拍摄,积累了大量的高质量3D数据,这些数据与2D数据结合,共同作为模型训练数据,极大地增强了模型对现实世界的理解力。
对于视觉内容生成中的光影效果塑造这一挑战性任务,FancyTech在每个环境中部署了可调节亮度和色温的多盏灯,收集尽可能多的自然光影数据,以提高生成图像的空间层次感。
这种高强度的数据收集模拟了真实拍摄场景的灯光,使其更加符合电商场景的特点。结合高质量的3D 数据积累,FancyTech 在算法框架上进行了一系列创新,将空间算法与图像、视频算法有机结合,让模型更好地理解核心物体与环境的交互。
商业化的探索在AIGC领域内从未停歇,尽管有共识,但也存在不同的发展方向。《机器之心》在文章中揭示了FancyTech在“强还原”和“超融合”背后的算法创新。
FancyTech的“多模态特征器”在多个维度上提取商品特征,然后利用这些特征生成融入场景的图像。特征提取分为全局特征和局部特征:全局特征包括商品的轮廓和颜色等基本要素,使用VAE编码器提取;局部特征关注商品的细节,通过图神经网络提取,这种方法能够详细捕捉商品内部的细节和关键像素间的关系,从而提高商品细节的还原精度。
在商业化道路上,无论是采用通用模型还是垂直模型,最终目标都是实现商业成功。FancyTech利用其丰富的独有数据和行业专知,在国内外市场获得广泛认可,与国际合作伙伴如三星、LG和东南亚的Lazada电商平台等建立了合作关系;在美国,获得了Kate Somerville和Solawave等本土品牌的青睐;在欧洲,赢得了LVMH创新大奖,并与欧洲客户深入合作。
此外,FancyTech还提供AI短视频的全链路自动发布和数据反馈功能,有效驱动商品销售的持续增长。
垂直模型的成功应用不仅推动了商业市场的发展,也使得普通大众可以更加容易地利用AIGC技术提高生产力。
随着技术的普及,现在几乎每个人都可以通过手机拍摄视频、录制音乐,并与全球分享他们的创作。期待一个AIGC技术再次释放个人创造力的未来——让普通人轻松跨越专业门槛,将创意转化为现实,从而推动各行各业的生产力飞跃,并催生更多新兴产业。
文/关注AI的林克
举报/反馈