CES有全球科技创新和消费电子行业的“风向标”之称在更早的约20年前,依托机器学习技术的人宠沟通已有初步尝试。 彼时,日本声学专家铃木松美通过收集东京某宠物医院的共5000多份犬吠声样本,并依据其音调、长度等特征解读情感,发明了能够单向解读家犬情绪的“宠物犬翻译器”。 而如今,随着人工智能技术的不断发展,AI+人宠交流正成为一个新兴的探索方向。孙邻家成为第一批踩上这个风口的人。 2022年,OpenAI发布ChatGPT,大型语言模型(LLM,是一种基于Transformer架构的深度学习模型,通过自监督学习从海量文本数据中捕捉语言规律,生成符合人类语用习惯的文本,并具备翻译、对话、推理等多种能力)进入公众视野。一年后,GPT实现文本、图像和音频的多模态处理,LLM的应用场景得到扩展。 LLM让孙邻家看到了人宠交流在技术层面的可能性——“我觉得应该用这种形式满足用户,但动物这个方向基本就没人做,做宠物的就更没人了”。 孙邻家(右)与合伙人Jason(左) 在美国华人科技组织华源科技协会(HYSTA)的年会上 Traini在2024年获得该协会颁发的 最受用户喜爱奖(Audience Choice Award) 2023年,孙邻家在一次硅谷的创业活动上认识了现在的公司人工智能主管兼合伙人Jason。他曾是OpenAI的华人工程师。 鉴于在前公司不太满意的几次产品开发尝试,以及同为宠物爱好者,Jason被借助AI技术具像化宠物行为与情感并拟人化为人类语言的新尝试吸引,最终加入。 目前,这款由团队自主研发的宠物行为翻译共情模型被命名为“宠物情绪与行为智能(PEBI)”。
简单来说,就像是训练其他AI模型一样,把不同品种、不同地区狗狗的语音、表情、行为等多模态数据,投喂给PEBI,最后模型就能理解狗语了。
与科学家根据犬类行为分析和解读情绪与意图不同的是,PEBI模型还能够基于已有数据库预测宠物犬在下一秒的情绪变化。“如果预测成功,那在人宠共情和交互的体验上又会更好。” 从共情的角度出发,根据宠物犬行为翻译而来的人类语言,除了尽量准确地传达意思之外,还要尽可能精准体现人与宠物犬之间深厚而独特的情感,这是自研发期间就一直存在的最大难点。“狗狗在养宠人心里其实很多是孩子的形象,都是个性化、独一无二的。”如果想要模拟这种对“毛孩子”讲话的形式,还要模拟孩童的说话状态和用语习惯,营造角色代入感。 为此,孙邻家和团队成员在声音克隆阶段先后尝试了机器语音、自己和合伙人试录的形式,但发现无论是声音效果还是说话方式,都达不到理想效果。直到一次会议上一位合伙人的儿子偶然说话,忽然让他们找到了想要的声音。以孩子录制的语料为基础,他们才得以确定下初版的口吻和音调。 Traini还能看懂狗狗的面部表情、身体行为等语言脏话也成了影响情感共鸣的考量因素。狗狗不开心了,它可不可以说脏话? 孙邻家觉得,既然狗狗被当作了和人一样的家庭成员,它们虽然无法真实地说出人类语言,但在将它们的愤怒翻译成语言的时候,或许可以尝试做个语义拓展,适当加入一些人类在情绪失控时会说的脏话。 “人在发飙的时候,有时候也说那些话,这样更贴近我们真实的生活。” 此外,如何获取更丰富、大量的数据,并做数据标注,是实现人宠交流的第二大难点。不够充足的数据样本,便难以保证翻译的准确度。Traini的数据来源主要来自应用平台的用户社区,覆盖了120个狗的品种。不光是品种,宠物狗的地域差异、与人交流互动的水平等因素都左右着犬类行为和情绪表达的多样性。这意味着即便是同一品种的宠物犬,其行为表达也可能不同,如果仅凭单一因素做翻译解读,结果也可能不准确。 目前,Traini的PEBI模型所收集的宠物狗数据大量来自北美和欧洲等主要用户群上传的宠物信息,在地域和品种上的涵盖范围不够全面,翻译的准确度依然有待提升。 与2022年刚开始探索人宠交流相比,孙邻家感到身边的环境已经发生了不小的变化。 起初人们会问他,市场对宠物行为理解到底有没有需求,但现在大家的反应更加热切——“他们会说,Wow你们好酷,还能做什么,能做猫吗?” 今年5月初,国家知识产权局也公开了百度的一项动物语言转换专利。和Traini的尝试类似,该专利运用大模型、多模态等人工智能前沿技术,通过分析动物的声音、表情、动作等数据来识别情绪与情感,并将结果转换为人类语言。 而在更广阔的AI+跨物种交流领域,在动物福利与养殖层面,借助AI技术翻译家猪、绵羊的情绪与处境的研究已经在海外出现。 近年来,也有越来越多的科学家将人工智能应用于野生动物研究,探索动物行为理解的新边界,开拓动物保护、生态修复的新途径。 今年的“世界海豚日”,谷歌推出了一款即将在夏天开源的“DolphinGemma”AI大模型,称该模型将实现与海豚进行水下实时交流,并能够预测它们的下一个发声。 值得一提的是,即便DolphinGemma吸收了30年的海豚研究数据,但它仅有400M大小,适合在手机端使用,这也为科研人员开展研究带来了便捷。 海洋中的抹香鲸 图片来源:Project CETI官网 与此同时,一项由国际科学家团队发起、《国家地理》支持的“鲸语翻译计划”(Project CETI)也正在进行。该项目中的一项研究将通过人工智能领域下的自然语言处理系统(NLP)分析抹香鲸的40亿个交流代码,破译抹香鲸的对话内容。未来,该研究团队还计划开发和部署能与野外抹香鲸沟通的互动聊天机器人。 在《听不见的大自然》(The Sounds of Life: How Digital Technology Is Bringing Us Closer to the Worlds of Animals and Plants)一书中,作者兼牛津大学环境地理学博士凯伦·巴克还谈到了借助AI模拟健康珊瑚礁的声音吸引珊瑚幼虫前来修复珊瑚礁的可能性。 书中提到,由于生物声学、人工智能和其他数字技术的进步,人能听到和理解越来越多的“非人类声音”,建立起动物语言的数据库,未来可能真的会诞生“动物版谷歌翻译”。 在与美国科技媒体Recode的对谈中,凯伦·巴克如此解释为何要追求跨物种的沟通: “在科学体系与公共话语中仍有人类例外论的残留,我们希望相信人类在某些方面的独一无二……或许当我们完善对非人类语言的理解时,我们会对语言有一个更包容的定义。” |