找回密码
 注册
搜索
查看: 74|回复: 1

[电脑数码] 全球首个宠物翻译器,上线爆火

[复制链接]
发表于 2025-5-22 08:44 PM | 显示全部楼层 |阅读模式


全球首个宠物翻译器,上线爆火

 搜索下载一条 一条
 2025年05月22日 18:56

近期,谷歌推出DolphinGemma大模型,

称将让人类听懂海豚的语言,

实现人与海豚在水下的实时交流。

另一个由华人团队研发、面向全球英文用户的

人狗交流应用Traini在去年6月出现,

成为全球首个实现人宠语言互译的AI原生应用。

AI正步入跨物种交流领域,

拓宽着人们对非人类语言理解的边界。

一条联系了TrainiCEO孙邻家,

他是80后、中国人,老家在吉林长白山。

我们与他聊了聊

AI新技术对人宠交流领域的影响,

01探索过程中的挑战,

以及他三年来身处行业内部的感受。

除此之外,我们还想知道:

当人类暂时离开语言的中心,

开始尝试建立起与非人类语言平等对话的可能,

在新奇感过后,AI+跨物种交流

对我们具有怎样的意义?

注:AI原生应用(AI-Native Application):指以人工智能为核心驱动力设计开发的应用,而非简单将AI作为附加功能嵌入已有架构。

编辑:蓝雨约

责编:鲁雨涵

IMG_2805.JPG
IMG_2806.JPG
孙邻家,80后,吉林长白山人
知名投行高盛近期的一份报告显示,中国的宠物数量首次超过4岁以下婴幼儿总量。同时根据艾媒咨询的数据,2023年中国宠物经济产业规模就已经达到5928亿元。

根据《2025宠物品牌网红营销生态报告》,以年轻群体为代表的养宠人多将宠物视作孩子朋友,呈现出情感消费与拟人化养宠的趋势。

这样的需求也催生了相关产业,比如几年前备受争议的宠物灵媒师,他们通过有关物件与宠物进行跨物种精神交流,并将宠物的处境、言语等以人类语言的方式转达主人。

在这样的情况下,孙邻家等三位华人研发的Traini,作为全球首个AI人狗翻译器,一经上线就引起了国内外网友的好奇和关注。

IMG_2807.PNG

海外用户试用Traini

开发AI人狗交流应用的想法源自孙邻家创业过程中的一次用户调研。

2018年,孙邻家来到美国,面向当地亚裔做亚洲餐外卖平台,后来开始拓展送狗粮的业务。

在一份有2200名用户反馈的送狗粮业务的调研结果中,他发现有76%的用户对理解自家宠物狗的行为感兴趣,其中多数人还曾花钱给狗狗上过行为纠正的相关课程。

孙邻家现在还记得一条留言。那是在患癌狗狗的临终时刻,它的主人告诉他自己当时很想听懂宠物犬的声音,想知道它最后想对自己说的话。

他还在夏威夷的一家餐厅遇见过一位当地老人。这位老人的狗狗一身亮金色毛发,性格沉静,很少吠叫,总睁着一双水汪汪的大眼睛张望。时间久了,老人特别想知道它每天都在想什么。

这也让他想起自己小时候在老家吉林长白山养狗的经历。在那时还是孩子的他的眼中,小土狗吠叫就是在说话,从个人角度说,做人狗交流也是想实现小时候和狗狗对话的美好愿望”。

IMG_2808.JPG

Traini的应用界面

经过2年的研发,Traini诞生了。人们可以上传宠物狗的叫声、图片和视频,获知狗狗包括快乐、恐惧及其更细微情绪等12种情绪及衍生的行为表现,并得到一段人类语音与文字相结合的共情口语化翻译。

孙邻家告诉我们,狗狗的语言分为心智语言和社会语言。心智语言多是基因中带来的,可以直接翻译回去;社会语言就像我们小时候学语言一样,和狗狗的受教育程度有关。

另外,跟狗的品种也有关系,比如边牧可能就学得更快,词汇量就会更大

通过与动物行为专家合作和模型训练中的交叉验证,该模型将宠物狗行为翻译成人类语言的准确率已达到81.5%

而在将人类语言翻译成犬吠方向,人们可以将看我一起走等18个短句转换成犬吠,此部分的宠物犬反应程度各不相同。

在国内社交平台,也有好奇的养宠人给自家狗狗做了尝试。其中有人幽默地吐槽:听不懂,难道是没给报英语课。

孙邻家解释说,狗狗是有方言的。也就是说,对这个以面向英文用户为主的AI原生应用而言,它听不懂中国狗是完全有可能的。

当然还有一种可能,就是狗狗听懂了,但是它不想做。就像一个小孩子在打游戏,你跟他说别打游戏了,去做作业,小孩听懂了,但他就是不想。

 楼主| 发表于 2025-5-22 08:44 PM | 显示全部楼层

IMG_2809.JPG
IMG_2810.JPG
孙邻家在国际消费类电子产品展览会(CES)上
CES有全球科技创新和消费电子行业的“风向标”之称
在更早的约20年前,依托机器学习技术的人宠沟通已有初步尝试。

彼时,日本声学专家铃木松美通过收集东京某宠物医院的共5000多份犬吠声样本,并依据其音调、长度等特征解读情感,发明了能够单向解读家犬情绪的宠物犬翻译器

而如今,随着人工智能技术的不断发展,AI+人宠交流正成为一个新兴的探索方向。孙邻家成为第一批踩上这个风口的人。

2022年,OpenAI发布ChatGPT,大型语言模型(LLM,是一种基于Transformer架构的深度学习模型,通过自监督学习从海量文本数据中捕捉语言规律,生成符合人类语用习惯的文本,并具备翻译、对话、推理等多种能力)进入公众视野。一年后,GPT实现文本、图像和音频的多模态处理,LLM的应用场景得到扩展。

LLM让孙邻家看到了人宠交流在技术层面的可能性——“我觉得应该用这种形式满足用户,但动物这个方向基本就没人做,做宠物的就更没人了

IMG_2811.JPG

孙邻家(右)与合伙人Jason(左)

在美国华人科技组织华源科技协会(HYSTA)的年会上

Traini在2024年获得该协会颁发的

最受用户喜爱奖(Audience Choice Award)

2023年,孙邻家在一次硅谷的创业活动上认识了现在的公司人工智能主管兼合伙人Jason。他曾是OpenAI的华人工程师。

鉴于在前公司不太满意的几次产品开发尝试,以及同为宠物爱好者,Jason被借助AI技术具像化宠物行为与情感并拟人化为人类语言的新尝试吸引,最终加入。

目前,这款由团队自主研发的宠物行为翻译共情模型被命名为宠物情绪与行为智能(PEBI

简单来说,就像是训练其他AI模型一样,把不同品种、不同地区狗狗的语音、表情、行为等多模态数据,投喂给PEBI,最后模型就能理解狗语了。

与科学家根据犬类行为分析和解读情绪与意图不同的是,PEBI模型还能够基于已有数据库预测宠物犬在下一秒的情绪变化。如果预测成功,那在人宠共情和交互的体验上又会更好。

从共情的角度出发,根据宠物犬行为翻译而来的人类语言,除了尽量准确地传达意思之外,还要尽可能精准体现人与宠物犬之间深厚而独特的情感,这是自研发期间就一直存在的最大难点。

狗狗在养宠人心里其实很多是孩子的形象,都是个性化、独一无二的。如果想要模拟这种对毛孩子讲话的形式,还要模拟孩童的说话状态和用语习惯,营造角色代入感。

为此,孙邻家和团队成员在声音克隆阶段先后尝试了机器语音、自己和合伙人试录的形式,但发现无论是声音效果还是说话方式,都达不到理想效果。直到一次会议上一位合伙人的儿子偶然说话,忽然让他们找到了想要的声音。以孩子录制的语料为基础,他们才得以确定下初版的口吻和音调。

IMG_2812.PNG
Traini还能看懂狗狗的面部表情、身体行为等语言

脏话也成了影响情感共鸣的考量因素。狗狗不开心了,它可不可以说脏话?

孙邻家觉得,既然狗狗被当作了和人一样的家庭成员,它们虽然无法真实地说出人类语言,但在将它们的愤怒翻译成语言的时候,或许可以尝试做个语义拓展,适当加入一些人类在情绪失控时会说的脏话。

人在发飙的时候,有时候也说那些话,这样更贴近我们真实的生活。

此外,如何获取更丰富、大量的数据,并做数据标注,是实现人宠交流的第二大难点。不够充足的数据样本,便难以保证翻译的准确度。Traini的数据来源主要来自应用平台的用户社区,覆盖了120个狗的品种。

不光是品种,宠物狗的地域差异、与人交流互动的水平等因素都左右着犬类行为和情绪表达的多样性。这意味着即便是同一品种的宠物犬,其行为表达也可能不同,如果仅凭单一因素做翻译解读,结果也可能不准确。

目前,TrainiPEBI模型所收集的宠物狗数据大量来自北美和欧洲等主要用户群上传的宠物信息,在地域和品种上的涵盖范围不够全面,翻译的准确度依然有待提升。

IMG_2813.JPG
IMG_2814.PNG
大西洋斑纹海豚群
图片来源:Google Blog

2022年刚开始探索人宠交流相比,孙邻家感到身边的环境已经发生了不小的变化。

起初人们会问他,市场对宠物行为理解到底有没有需求,但现在大家的反应更加热切——“他们会说,Wow你们好酷,还能做什么,能做猫吗?

今年5月初,国家知识产权局也公开了百度的一项动物语言转换专利。和Traini的尝试类似,该专利运用大模型、多模态等人工智能前沿技术,通过分析动物的声音、表情、动作等数据来识别情绪与情感,并将结果转换为人类语言。

而在更广阔的AI+跨物种交流领域,在动物福利与养殖层面,借助AI技术翻译家猪、绵羊的情绪与处境的研究已经在海外出现。

IMG_2815.PNG
DolphinGemma可将海豚的独特哨声可视化
图片来源:Google Blog

近年来,也有越来越多的科学家将人工智能应用于野生动物研究,探索动物行为理解的新边界,开拓动物保护、生态修复的新途径。

今年的世界海豚日,谷歌推出了一款即将在夏天开源的DolphinGemmaAI大模型,称该模型将实现与海豚进行水下实时交流,并能够预测它们的下一个发声。

值得一提的是,即便DolphinGemma吸收了30年的海豚研究数据,但它仅有400M大小,适合在手机端使用,这也为科研人员开展研究带来了便捷。

IMG_2816.JPG

海洋中的抹香鲸

图片来源Project CETI官网

与此同时,一项由国际科学家团队发起、《国家地理》支持的鲸语翻译计划”(Project CETI)也正在进行。

该项目中的一项研究将通过人工智能领域下的自然语言处理系统(NLP)分析抹香鲸的40亿个交流代码,破译抹香鲸的对话内容。未来,该研究团队还计划开发和部署能与野外抹香鲸沟通的互动聊天机器人。

在《听不见的大自然》(The Sounds of Life: How Digital Technology Is Bringing Us Closer to the Worlds of Animals and Plants)一书中,作者兼牛津大学环境地理学博士凯伦·巴克还谈到了借助AI模拟健康珊瑚礁的声音吸引珊瑚幼虫前来修复珊瑚礁的可能性。

书中提到,由于生物声学、人工智能和其他数字技术的进步,人能听到和理解越来越多的“非人类声音”,建立起动物语言的数据库,未来可能真的会诞生“动物版谷歌翻译”。

在与美国科技媒体Recode的对谈中,凯伦·巴克如此解释为何要追求跨物种的沟通:

在科学体系与公共话语中仍有人类例外论的残留,我们希望相信人类在某些方面的独一无二……或许当我们完善对非人类语言的理解时,我们会对语言有一个更包容的定义。

回复 鲜花 鸡蛋

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|www.hutong9.net

GMT-5, 2025-5-23 04:41 PM , Processed in 0.073571 second(s), 17 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表