揭秘FancyTech：“强还原”和“超融合”背后的算法创新

2024-08-25

在最近的技术变革浪潮中，AIGC（人工智能生成内容）正在成为人们自我表达和创作的重要工具。这一波技术革新的推动力并非仅是庞大的算法模型，而是深度定制的解决方案，专注于特定领域的需求。在过去两年中，AIGC的发展速度超出了许多人的预期，其应用已从文本生成扩展到图像和视频的全领域。

最近，《机器之心》专访了一家名为FancyTech的中国创业公司。该公司通过提供标准化的商业视觉内容生成产品，不仅迅速扩张了市场，还在实际应用中率先证明了垂直模型的优势。

《机器之心》还详细介绍了FancyTech最新发布的视频垂直模型DeepVideo，该模型成功应对了如何在视频中精准还原并自然融合商品的挑战，确保商品在动态中保持不变形。

FancyTech 的垂直模型基于开源的底层算法框架，叠加自有的数据标注重新训练，仅需几百张 GPU 持续训练迭代即可取得好的生成效果。相比之下，「商品数据」和「训练方式」这两个因素对于最终的落地效果更为关键。

在积累了大量的3D训练数据基础上，FancyTech引入了空间智能的思路指导模型的2D 内容生成。在图像内容生成方面，团队提出了「多模态特征器」以确保商品的还原，并通过特殊的数据采集保证商品与背景的自然融合。在视频内容生成方面，团队重新构建了视频生成的底层链路，定向设计框架和进行数据工程，以商品为中心生成视频。

此外，《机器之心》深入揭秘了FancyTech如何将空间智能的研究思路应用于视觉生成模型。与传统生成模型不同，空间智能通过分析大量传感器数据，进行精确标定，从而使模型能够感知和理解现实世界。

FancyTech采用激光雷达扫描代替传统摄影棚拍摄，积累了大量的高质量3D数据，这些数据与2D数据结合，共同作为模型训练数据，极大地增强了模型对现实世界的理解力。

对于视觉内容生成中的光影效果塑造这一挑战性任务，FancyTech在每个环境中部署了可调节亮度和色温的多盏灯，收集尽可能多的自然光影数据，以提高生成图像的空间层次感。

这种高强度的数据收集模拟了真实拍摄场景的灯光，使其更加符合电商场景的特点。结合高质量的3D 数据积累，FancyTech 在算法框架上进行了一系列创新，将空间算法与图像、视频算法有机结合，让模型更好地理解核心物体与环境的交互。

商业化的探索在AIGC领域内从未停歇，尽管有共识，但也存在不同的发展方向。《机器之心》在文章中揭示了FancyTech在“强还原”和“超融合”背后的算法创新。

FancyTech的“多模态特征器”在多个维度上提取商品特征，然后利用这些特征生成融入场景的图像。特征提取分为全局特征和局部特征：全局特征包括商品的轮廓和颜色等基本要素，使用VAE编码器提取；局部特征关注商品的细节，通过图神经网络提取，这种方法能够详细捕捉商品内部的细节和关键像素间的关系，从而提高商品细节的还原精度。

在商业化道路上，无论是采用通用模型还是垂直模型，最终目标都是实现商业成功。FancyTech利用其丰富的独有数据和行业专知，在国内外市场获得广泛认可，与国际合作伙伴如三星、LG和东南亚的Lazada电商平台等建立了合作关系；在美国，获得了Kate Somerville和Solawave等本土品牌的青睐；在欧洲，赢得了LVMH创新大奖，并与欧洲客户深入合作。

此外，FancyTech还提供AI短视频的全链路自动发布和数据反馈功能，有效驱动商品销售的持续增长。

垂直模型的成功应用不仅推动了商业市场的发展，也使得普通大众可以更加容易地利用AIGC技术提高生产力。

随着技术的普及，现在几乎每个人都可以通过手机拍摄视频、录制音乐，并与全球分享他们的创作。期待一个AIGC技术再次释放个人创造力的未来——让普通人轻松跨越专业门槛，将创意转化为现实，从而推动各行各业的生产力飞跃，并催生更多新兴产业。

文/关注AI的林克

举报/反馈

新闻

揭秘FancyTech：“强还原”和“超融合”背后的算法创新

简介

我的联系方式