CN1427626A

CN1427626A - 虚拟电视通话装置

Info

Publication number: CN1427626A
Application number: CN02157471.5A
Authority: CN
Inventors: 望月义幸; 折本胜则; 樋尻利纪; 大谷尚毅; 中俊弥; 山本刚司; 原重夫
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-12-20
Filing date: 2002-12-20
Publication date: 2003-07-02
Anticipated expiration: 2022-12-20
Also published as: EP1326445A3; EP1326445A2; US20030117485A1; EP1326445B1; DE60224776T2; US6909453B2; CN1326400C; DE60224776D1

Abstract

本发明提供一种将通信对方显示为接听者选择的虚拟三维CG角色，并通过CG角色进行语音对话的带显示功能的通信终端。通信部(1)进行语音通信，角色背景选择输入部(2)选择对应于通话对方的CG角色。语音处理部5进行通话必需的语音处理，语音变换部(6)进行语音变换，并从语音输出部(7)输出。语音输入部(8)取得语音，语音分析部(9)进行语音分析，感情推定部(10)根据语音分析结果进行感情推定。嘴唇动作控制部(11)、身体动作控制部(12)、表情控制部(13)向三维描绘部(14)传送控制信息，来生成图像后，并由显示部(15)显示。

Description

虚拟电视通话装置

技术领域

本发明涉及一种带显示装置的通信终端装置的虚拟电视通话装置，目的在于使用者通过虚拟的三维CG(计算机制图)角色(character)，视觉地享受语音对话。

背景技术

以前，被称为电视通信的装置是指在带相机和显示装置的电话装置彼此间，一边看着相机拍摄的通话对方的脸的图像，一边通话的装置。通常，为了减少传送量，压缩拍摄的脸图像数据，并与语音数据多路复用后传送给接收者。接收者侧将多路复用数据分离为语音数据和压缩后的图像数据，拉伸图像数据后，与语音数据取得同步，进行语音输出和图像显示。最近，基于MPEG-4(移动图像专家组阶段4)的标准图像压缩规格，开发出针对下一代移动通信的称为可视电话的便携电话(参照非专利文献NIKKEIELECTRONICS 1999.11.1(NO.765)，pp99-117)。

另一方面，如上所述在多路复用图像后发送的情况下，必需去掉现有语音通信框架的宽带通信规格和实现它的基本设施。因此，根据这种图案压缩方法，仅通过语音数据通信就可模拟实现电视通信和类似功能(参照专利文献特开昭62-274962)。该发明在电话中保持事先将对方脸图案加工成没有口的状态的脸静止图像和形成“あ”、“い”、“う”…等元音(母音)的发音状态的口形的静止图像。使用语音识别技术对从对方发送来的语音数据进行发送来的语音的元音分析，根据分析结果，随时显示将口形数据与脸图像合成后的图像，显示对方说话的状态。该发明的优点在于可在通常的语音通信框架中实现模拟电视通信，但使用者对口以外不动的静止画面感到不适，另外，对是否感觉为与本人对话存在疑问。

从语音通信框架引伸出通过发送图像来减少数据量，与图像识别技术相组合的发明(参照专利文献特开平05-153581)。在该发明中，通过图像识别，识别表情和口形，参数化后与语音数据一起发送。在接收侧，事先保持对方的三维模型，在输出语音时，根据接收到的参数来变形三维模型后进行显示。

上述三种技术任一种的目的都在于一边看着通信对方的脸一边对话，而不是以提高对话自身娱乐性为目的。

上面涉及所谓电话技术，但随着因特网的普及，基于文字的对话成为主体，但也可能通过个人计算机进行对话。其中，使自己的代理CG(计算机制图)角色加入共同的虚拟空间中，在虚拟空间中通过其代理CG角色，与加入其中的其他人的代理CG角色进行对话(参照美国专利5880731)。该发明的目的在于在自己具有匿名性的状态下与对方进行对话，因为在与现实的自己游离的状态下参加，所以多是享受包含虚伪的不真实对话。另外，代理CG角色由于用作进行通信的本人选择的自己替身，所以被称为化身(Avatar)。该化身是参加者自身选择的，所以对话对方不能变更该化身的角色。另外，该化身自身只是用于其他参加者特定对方，所以也不必变更。实现的问题在于除参加者的终端计算机(客户计算机)外，必需具有服务器计算机，其进行参加者招募的共同虚拟空间的管理控制和参加者的状态控制、它们的信息通知等。

在例如因特网上的Extempo Systems公司的主页上，公开了所谓与虚拟的CG角色进行对话的技术。其中，使用者与网上的专门角色进行对话，这是基本文字的对话，而不是语音对话。

另外，在技术上事先形成用关键字对对话字典进行分类的字典，针对对方的对话内容，分析对分类后的关键字的适合性，并通过显示最适合的对话文件，使CG角色与人的对话成立。因为人的理解能力高，虽然可以通过适当文件进行对话，但因为对话文件数量远远高于登录数量，所以在进行几次对话处理中，引起文件往返缓慢。虽然存在所谓的与虚拟CG角色对话的这种新的娱乐性，但其与实际的人进行的对话，在弹性或多样性、适当性、个性方面大不相同。这种技术的目标在于如何贴近现实的人的对话能力。

总结上述现有技术的特征，上述从最初开始的三个技术的任意一种都是对想一边看着通信对方的脸一边对话的要求所作的发明，目的在于一边确认通信对方的表情或状态等一边进行对话。因此，其目的不是使接听者独自地发挥任何作用，以加工显示图像和语音来提高娱乐性，另外也未公开该技术。

下面，第四个现有实例使自己选择的CG角色加入虚拟共用空间，具有匿名性，但由于具有匿名性，所以可以享受没有回避的真实声音的对话和不真实、虚伪的对话。因此，对话对方的CG角色只需要被简单地特定即可，对对话对方的CG角色和语音不起任何作用，不是享受提高娱乐性的对话的。第五个现有实例可进行与具有人工智能的对话设备的虚拟CG角色进行对话，与实际的人的对话不相似，在弹性和多样性、适当性、个性方面与实际的人的对话区别较大。

发明内容

因此，鉴于上述问题，本发明的目的在于提供一种带显示功能的通信终端，将通信对方显示为接听者选择的虚拟三维CG角色，利用通信对方的对话，进行虚拟的三维CG角色和语音对话。由此，通过与所谓“可以看通信对方的脸或看类似图像”、“完成变为不真实角色”的功能不同的方法，可实现提高语音对话娱乐性的新的通信终端。

另外，本发明的目的在于提供一种带显示装置的通话装置，其不象上述现有技术那样使用象服务器这样的装置来实现虚拟空间中的对话。

另外，本发明的目的还在于提供一种新的通话装置，其通过三维CG角色进行适于通话中对话的感情表现。

为了实现上述目的，本发明的虚拟电视通话装置的特征在于具备：通信单元，进行语音通信；角色选择单元，选择使用者本人或通信对方至少一方的CG角色形状数据；语音输入单元，输入上述使用者本人语音；语音输出单元，输出通信对方的语音；语音分析单元，对上述通信单元接收的通信对方的语音数据或上述接收的通信对方语音数据，与上述语音输入单元输入的使用者本人的语音数据两者进行语音分析；感情推定单元，使用上述语音分析单元的语音分析结果，推定通信对方或通信对方和使用者本人的感情状态；动作控制单元，根据上述感情推定单元进行上述CG角色的动作控制；描绘单元，使用根据上述CG角色形状数据和上述动作控制单元的控制信息生成的动作数据，进行描绘处理，生成图像；和显示单元，显示上述描绘单元生成的图像。

另外，本发明的虚拟电视通话装置的特征在于：上述感情推定单元向上述动作控制单元通知该感情推定单元的推定结果，上述动作控制单元基于该通知结果来特定上述动作数据。

另外，本发明不仅可作为上述虚拟电视通话装置来实现，而且还可作为将上述虚拟电视通话装置具备的单元形成为步骤的虚拟电视通信方法来实现，还可作为使用该步骤的虚拟电视通信系统来实现。

另外，不用说，也可作为由计算机等实现上述虚拟电视通信方法的程序来实现，可通过CD-ROM等存储媒体或通信网络等传输媒体来流通该程序。

附图说明

图1是表示本发明实施例1的虚拟电视通话装置结构的框图。

图2是表示本发明实施例2的虚拟电视通话装置结构的框图。

图3是本发明CG角色数据管理表和CG角色选择画面的说明图。

图4(a)是本发明的通信管理表、CG数据管理表、语音管理表的说明图。

图4(b)是本发明的设定时的动作流程图。

图5(a)是本发明的音强度分析和嘴唇动作的说明图。

图5(b)是本发明的音素分析和嘴唇动作的说明图。

图6(a)是本发明的表情动作变迁的说明图。

图(b)是本发明的身体动作变迁的说明图。

图7是关于本发明的流水线处理和延迟的说明图。

图8(a)表示本发明的虚拟电视通信的示意图。(b)表示本发明的虚拟电视通信的示意图。

图9是表示使用频率信号的感情推定方法的处理顺序的流程图。

图10(a)是表示本发明实施例1和2以外的其它利用方式的参考图。

图10(b)是表示本发明实施例1和2以外的其它利用方式的参考图。

图11是表示在本发明的虚拟电视通话装置的功能框图中加入传感器部后的框图。

图12(a)是表示为了感情推定而具备各种传感器部的便携电话使用例的图。

图12(b)是表示为了感情推定而具备各种传感器的便携电话的参考图。

具体实施方式

实施例1

下面，参照附图来说明本发明实施例1的虚拟电视通话装置。

图1表示本发明实施例1的虚拟电视通话装置的结构。该虚拟电视通话装置包括：通信部1、角色背景选择输入部2、数据管理部3、语音选择输入部4、语音处理部5、语音变换部6、语音输出部7、语音输入部8、语音分析部9、感情推定部10、嘴唇动作控制部11、身体动作控制部12、表情控制部13、三维描绘部14、显示部15、动作表情输入部16、视点变更输入部17、角色形状数据保存部18、角色动作数据保存部19、背景数据保存部20、纹路数据保存部21和音乐数据保存部22。下面，对如此构成的本发明实施例1的虚拟电视通话装置进行详细说明。在本发明实施例1中，可分为设定时的动作和收发信对话时的动作，所以分别依次说明，但作为它们共同的事项，首先说明装置中保存的数据及其管理。

(保存数据与管理的说明)

在角色形状数据保存部18中，按地址保存CG角色的形状数据和与其对应的缩略数据(thumbnail data：判断CG角色姿容的图像数据)。角色形状数据通常由头部、上肢、躯干、下肢等部件构成，各部件中，如头部还由眼、鼻、口、头发等子部件构成，上肢由手、小臂、上臂等子部件构成。若是更详细的角色形状，则手由指或手掌等子部件构成。这些阶梯结构关系表示角色形状的结构，通常称为大致事物(thing rough)。各部件、子部件通常被称为表面模型(surfacemodel)，仅把物体表面近似为多边形，通过面的集合体来表现，由三维空间中的顶点坐标、同顶点的法线向量分量(计算光源亮度时必须)、纹路坐标(进行纹路贴图时必须)的索引化点列数据、和表示其关联方的拓朴数据(例如，按1、2、3的顺序绘出顶点索引，表示顶点具有点1、2、3的三角形)构成，另外，还包含各面的反射率(扩散反射率、镜面反射率)和环境光强度、物体颜色等属性数据。在由纹路(texture)贴图(mapping)来表现CG角色身上的衣服等的情况下，在对应于CG角色的形状数据的部件中公开使用的纹路在纹路数据保存部21中的地址或与其对应的识别符的ID。

在角色动作数据保存部19中，按地址保存CG角色的身体动作数据、作为身体动作的变迁图形数据的身体动作图形数据、表情数据和表情图形数据、嘴唇动作数据和嘴唇动作图形数据。

为了进行通常的CG角色动画，身体动作数据为三维空间中作为身体代表点路线的表示身体整体移动的平行移动量、表示身体整体的姿势状态的绕三维空间的三个坐标轴的旋转角度量或绕表示旋转中心轴的矢量分量的矢量的旋转角度量、和绕由各关节定义的局部坐标系的坐标轴的旋转角度量的时系列数据。通过这些路线位置和关节部的局部坐标系中的变换系，变换CG角色形状数据，生成各时刻CG角色所处位置和方向、CG角色的身体姿势，进行三维描绘处理，通过在时间上连接进行处理，可实现CG的动画。在使用关键画面动画技术的情况下，不具备整帧画面的身体动作数据，用时间上分散的时间系列数据，在该期间的时刻的动作状态通过内插进行计算，所以作为身体动作数据，在时间上分散的上述平行移动量和角度量的时间系列数据是身体动作数据。

身体动作图案数据是如图6(b)所示有限状态的图表数据，是由可从某个动作移动的动作关系与实体动作信息(动作ID、数据种类、各实体身体动作的地址和帧数、各转变的移动概率)构成的数据。例如，图6(b)中，根据表示标准状态的身体动作数据判断可移动到动作A、动作C、动作D、动作E。在CG角色处于标准状态时，产生预定的某些事件，基于记述在实体动作信息中的移动概率，通过选择处理，从动作A、动作C、动作D、动作E中选择动作，通过地址取得该动作实体。另外，在本实施例的情况下，说明了通话开始后的身体动作图案数据中将根据感情推定部10的通常状态、笑状态、哭泣状态、生气状态、烦恼状态、认可状态等推定结果和动作表情输入部16的输入结果作为事件引起转变，但即使更复杂的推定结果和其它输入部的事件引起转变的情况下也可一样实施。另外，身体动作取决于形状数据的结构(骨架构造、层次构造)(例如6脚昆虫的动作不能适用于两脚步行的人)，因为身体动作不可能适用于所有形状数据，所以通过实体动作信息的数据种类将它们与可适用的形状数据分类。另外，以上的身体动作图案数据在上层新设置身体动作图案数据，通过该上层的身体动作图案数据进行管理，也可将多个身体动作图案数据的实体地址变为一个上层的身体动作图案。例如，如场面等切换身体动作图案来使用是非常有效的。

如图6(a)所示，表情动作数据是生成CG角色脸的表情用的数据。表情生成方法是通过使用通常进行的面部动画技术来进行的，但例如也有变形脸形状来进行的方法和改变脸纹路的方法等。在变形脸形状的情况下，脸形状数据中对应于生成表情的眉、眼和嘴等端点的顶点坐标的移动量的时间系列数据是表情动作数据。这些移动量可根据脸的肌肉模型通过模拟计算来算出。在进行变换的顶点跨跃多个变换系的情况下，还使用所谓包络方法，对顶点提供对应于各变换的加权，对在各变换系中算出暂时变换该顶点后的多个顶点，考虑对它们进行加权后变换成平均了的坐标。在图6(a)中，通过变形眼形、鼻子大小、耳、脸形等形状来表现各感情。另外，在改变纹路的情况下，笑的表情和哭泣表情的纹路、其中途阶段的纹路为表情数据。表情图案数据为这些表情数据的转变图表数据(graph data)，与身体动作数据的转变图表数据一样，是可从某种表情数据向某种表情数据移动的有限状态图表和实体表情信息(表情ID、数据种类、各实体表情动作数据的地址和帧数、各转变的移动概率)。例如，如图6(a)所示，在该实例中表示若不经由通常的脸则不能移动到其它的脸，根据实体表情信息的移动概率来进行移动目的的选择。另外，与身体移动时一样，通过实体表情信息的数据种类来特定表情动作或纹路和可适用形状。例如，将数据种类的第一位用于表情或纹路的分类，将第二位以上的数字设为形状用识别序号。以上的表情图案数据与身体动作图案数据时一样，通过设置上层的表情图案数据，也可将多个表情图案作为一个。

另外，在本实施例的情况下，说明了通话后的表情图案数据通过感情推定部10推定为通常状态、笑状态、哭泣状态、生气状态、烦恼状态，将该推定结果和动作表情输入部16的输入结果作为事件引起转变，但即使在通过更复杂的推定结果和其它输入部作为事件引起转变的情况下也可同样实施。

对嘴唇动作数据而言，也与表情动作数据、表情动作图案数据一样，有变形嘴形状来进行的方法或改变贴图纹路的方法。但是，嘴唇动作数据取决于语音分析处理内容，并且，如后所述，在根据声音强度分析结果生成嘴唇动作的情况下，只保存对应于嘴张开量的动作数据(参照图5(a))。在进行音素分析的处理的情况下，例如在进行元音分析和“ん”音分析的情况下，将用于生成与该音一致的嘴唇形状的形状变形数据和该嘴唇纹路数据保存为动作数据(参照图5(b))。嘴唇图案数据是表示以上任一种嘴唇动作的集合的，是由实体嘴唇信息(各嘴唇ID、数据种类、各实体嘴唇动作地址和帧数)构成的数据。各实体嘴唇ID例如图5(a)所示若由音强度来进行控制时，是通过将相当于级别的数据作为识别符，将0设为级别0、…、将3设为级别3等的识别符，如图5(b)所示若基于音素分析，则是将相当于“ん”、“あ”、…、“お”的识别符分别作为0、1、…、5的识别符。另外，也可通过组合音强度分析和音素分析，即使相同的“あ”音也设置音强度大的“あ”和音强度小的“あ”。此时，在图5(b)的纵向上合并图5(a)的级别，将嘴唇ID定义为二维识别符即可。

背景数据保存部20将背景的形状数据或背景的图像和与之对应的缩略图像，作为显示CG角色时的背景数据，进行地址管理并保存。背景形状数据与CG角色的形状数据一样，是以背景作为形状的物体。背景的图像数据例如是天空或远景的图像数据，也可与背景的物体组合。另外，在通过纹路贴图在背景的物体形状数据中加入图案等情况下，使用的纹路数据保存部21中的地址或与之对应的识别符ID被明示。

纹路数据保存部21对下列图像数据进行地址管理和保存，即通过三维描绘部14进行纹路贴图时使用的、CG角色身上的衣类等纹路的图像数据和背景使用的物体纹路贴图用的图像数据。

音乐数据保存部22对音乐数据进行地址管理和保存。这些在进行对发送对方的收接时，产生声音，作为信号来使用。

数据管理部3进行保存数据的管理、设定数据的保存管理、设定数据的通知。其中，首先说明角色形状数据保存部18、角色动作数据保存部19、背景数据保存部20、纹路数据保存部21、音乐数据保存部22中保存的数据的管理。图3是数据管理部3保持的一个表，其所示为CG角色数据管理表3a。CG角色数据包括：CG角色名称；CG角色形状数据的实体在某个纹路形状数据保存部18中的地址；相对CG角色形状数据中明示的衣类等纹路、基于使用者指定来进行交换时的衣类纹路数据在纹路数据保存部21中的交换前衣类纹路的地址和交换后的衣类纹路的地址(可记录多个)；角色动作数据保存部19中保存的表情图案数据的通话开始前和通话开始后的两个地址；嘴唇动作图案的地址；角色形状数据保存部18中保存的缩略图像的地址；将它们由CG角色ID的识别符表格化后成为CG角色数据管理表3a。

其它保存数据管理用表包括背景数据管理表、动作图案管理表、语音管理表三种，加上CG角色数据管理表3a共四种。背景数据管理表中，用背景ID的识别符将背景的物体和远景的图像数据名称与背景数据保存部20中的地址表格化。动作图案管理表中，用动作图案ID的识别符将身体动作图案数据的名称和角色动作数据保存部19中的地址表格化。音乐数据管理表中，用音乐ID的识别符将音乐数据的名称和音乐数据保存部22中的地址表格化。

(设定时的动作)

如图4(a)所示，通信部1中保存通信者管理表。通信者管理表管理通信对方的发送者ID、电话号码、姓名、显示模式的内容。显示模式包括：不显示CG角色以通常的语音通信进行通话的情况的非显示模式；仅将通信对方显示为CG角色，作为虚拟电视通信进行通话的对方显示模式；不仅对方，也可将使用者自身显示为CG角色，作为虚拟电视通信进行通话的本人同时显示模式；这些显示模式由识别符进行管理。在本实施例中，说明将非显示模式设为0、将对方显示模式设为1、将本人同时显示模式设为2来分配识别符。另外，发送者ID的序号0是预定来表示本人的。在本实施例中，是以电话通信为基本来考虑的，所以由电话号码进行收发信管理进行通话，但例如如果是因特网，则也可是基于TCP/IP的IP地址和针对使用者的邮件地址等。这些是取决于通信基础设施的、特定通信者用的识别符，所以如果是满足这种条件的识别符，则可全部对应。

图4(a)的CG数据管理表3b是用于通过数据管理部3中保存的表来保存管理通信对方的CG数据设定的表。通过发送者ID来管理如下所述项目，即由发送者确定的CG角色数据管理表3a中的CG角色ID、背景数据管理表中的背景ID、动作图案管理表中的通话开始前和通话开始后的身体动作图案ID构成的项目。

图4(a)的语音管理表3c也是数据管理部3中保存的表，语音变换数值参数由语音变换部6使用，语音变换数值参数用于通过发送者ID管理由针对发送者确定的、通信对方的语音变换数值参数和收信时的音乐数据ID构成的项目，所以在通过带通滤波器进行语音变换的情况下，该语音变换数值参数是分配给各带通滤波器的识别符。例如，如下分配识别符，即0对应没有滤波器、1对应1kHz以下的滤波器、2对应1-5kHz的滤波器、3对应5kHz以上的滤波器。这样，通过识别符化变换必需的参数，所以不取决于变换方法(例如，即使在由间距变换来进行语音变换的情况下，也可把变换必需的参数组识别符化)。另外，上述语音变换数值参数通过使用者变更设定作为确定语音高低的识别符，而具有改变语音的效果。另外，音乐数据ID成为所谓确定接收音乐的识别符。

基于图4(b)来说明设定时的动作。一旦使用者操作角色背景选择输入部2中具备的该设定状态移动输入部，则通知数据管理部3可以向设定状态转移，数据管理部3读取通信部1中保存的通信者管理表的内容，发送给三维描绘部14(S401)。三维描绘部14基于事先保持的设定画面数据，生成反映发送来的通信者管理表内容的设定画面，在显示部15中显示设定画面。角色背景选择输入部2选择通信者(S402)，根据对应该通信者的上述识别符来输入显示模式。选择表示非显示模式0的情况下(S403)，结束设定。

接着，显示模式在仅将对方显示为CG角色的显示模式1、或还将使用者本人显示为CG角色的显示模式2的情况下，将结果通过数据管理部3通知给通信部1和三维描绘部14。通信部1将选择结果作为显示模式记入保存在通信者管理表中。三维描绘部14依次生成如图3所示的预定的角色选择设定画面和衣类纹路设定画面、身体动作图案设定画面，由显示部15显示。另外，在角色选择画面中，基于CG角色数据管理表3a中所示缩略地址和名称，如图3所示，描绘CG角色的图像和名称。另外，依次显示CG角色选择设定画面、衣类纹路设定画面、以及身体动作图案设定画面，其中，对于通过角色背景选择输入部2选择输入的默认值或对应特定通信者的上述CG角色选择设定画面的选择结果、以及上述身体动作图案设定画面的选择结果，将其ID记录在数据管理部3中保存的CG数据管理表3b的对应栏中。另外，将上述衣类纹路设定画面的选择结果记录，在数据管理部3中保存的CG角色管理表的对应栏中。此外，身体动作图案的选择是选择通话开始前和通话开始后这两种，此时，还可能在设定画面中显示动作图案管理表中记载的名称。通过该显示，使用者容易地掌握身体动作的信息，所以容易地进行选择。例如，曼波舞、华尔兹舞、播音员的动作、有名天才的动作等(S404)。

同样，语音选择输入部4设定输入语音变换参数和音乐数据，若使用者操作语音选择输入部4中预定的向该输入模式移动的该设定状态移动输入部，则该移动经通信部1通过数据管理部3通知到三维描绘部14。三维描绘部14生成预定的设定画面并显示在显示部15中。根据显示的设定画面，使用者通过语音选择输入部4选择输入语音变换参数和音乐数据。将输入的选择结果记录在数据管理部3中保存的语音管理表3c中(S404)。

接着，在对方显示模式的情况下，移动到背景选择设定(S405)。另外，在选择本人同时显示模式的情况下，由角色背景选择输入部2与上述一样进行对应使用者本人的CG角色、衣类纹路、动作图案的选择输入后(S406)，移动到背景选择。

对于背景选择，也显示预定的背景设定画面，由角色背景选择输入部2选择背景(S407)。将选择结果存储在数据管理部3中保存的CG数据管理表3中。

最后，在上述CG角色的设定和身体动作图案的设定时，将表情图案数据中的特定表情动作数据的地址、身体动作图案数据中的特定身体动作数据地址通知给动作表情输入部16。动作表情输入部16保持通知的身体动作数据的地址和表情动作数据的地址，与动作表情输入部16中事先准备的输入按钮对应。若使用者按下该输入按钮，则将与之对应的身体动作数据或表情数据的地址通知给数据管理部3，在通知结果为身体动作数据的地址时通知给身体动作控制部12，在为表情动作数据的地址时通知给表情控制部13。通过准备多个输入按钮，可保持多个可保持的身体动作数据的地址、表情动作数据的地址。另外，明示判断通话开始前和通话开始后的身体动作数据的地址、表情动作数据的地址。另外，本实施例中虽然记述为按钮输入，但也可以是可特定的输入部(例如键盘、鼠标等)。因此，在使用者选择自身的角色的同时，也可自由选择通话对方的角色，另外，因为使用者侧的通话装置具备虚拟电视通话必需的数据，所以即使通话对方不一定使用虚拟通话装置，使用者也可进行虚拟电视通话。

另外，通常由PC进行上述图解(graphical)的设定，可由现有的软件技术来实现。

(收发信时的动作)

发信时，通信部1输入电话号码，通过与记录在被保存的通信者管理表中的电话号码栏的内容互相对应，来特定发送者的ID和显示模式。收信时，由于通常在通话前通知收信对方的电话号码，所以通过互相对应电话号码和通信者管理表的电话号码栏，确定发送者ID和显示模式。另外，通信部1是具有通常的语音通信功能(若在便携电话的情况下为所谓的基带处理等)的。

在特定的显示模式为非显示模式的情况下，进行通常的语音通话处理。即，在获得与通信对方的通信认可后，从发送者发送来语音数据的情况下，通过语音处理部5进行解码处理等通常进行的语音处理，通过语音变换部6，发送给语音输出部7，输出语音。另外，使用者本人的语音从语音输入部8输入，通过语音处理部5进行通常进行的语音数据压缩等语音处理，通过通信部1发送给通信对方。

在特定的显示模式是仅将对方显示为CG角色的对方显示模式情况下说明其动作，将动作分为通话开始前和通话开始后，通话开始时由通信部1将该开始的情况告知数据管理部3。

在收发信时的通话开始前，如上所述，因为可确定发送对方的电话号码，所以通信部1根据通信者管理表来特定通信对方的发送者ID，将发送者ID发送到数据管理部3。数据管理部3根据保存的CG数据管理表3b，特定对应于发送者ID的CG角色ID、背景ID、动作图案ID(通话前和后的身体动作图案的两个ID)。在CG数据管理表3b中没有与可发送的发送者ID对应的数据时，特定默认设定的CG角色ID、背景ID、动作图案ID(通话前和后的身体动作图案的两个ID)。数据管理部3通过确定的CG角色ID，从CG角色数据管理表3a中特定CG角色形状数据的地址、交换前衣类纹路的地址和交换后衣类纹路的地址、通话开始前和通话开始后的两个表情图案数据的地址、嘴唇动作图案的地址。由保存的背景数据管理表根据特定的背景ID来特定背景数据的地址。另外，由保存的动作图案管理表，根据动作图案ID(通话前和后的身体动作图案两个ID)来特定通话开始前和通话开始后的两个身体动作图案的地址。

数据管理部3将特定的CG角色形状数据的地址、交换前的衣类纹路的地址和交换后的衣类纹路的地址、背景数据的地址通知给三维描绘部14。另外，数据管理部3由特定的通话开始前和通话开始后的两个身体动作图案地址、通话开始前和通话开始后的两个表情图案数据的地址、嘴唇动作图案数据的地址，从角色动作数据保存部19中读取通话开始前和通话开始后的两个身体动作图案数据后，发送给身体动作控制部12，读取通话开始前和通话开始后的两个表情图案数据后发送给表情控制部13，读取嘴唇动作图案数据后发送给嘴唇动作控制部11。

嘴唇动作控制部11从嘴唇动作图案数据中选择适当的嘴唇动作数据的地址，从帧序号0至数帧和该地址一起依次通知给三维描绘部14。从嘴唇动作图案数据中选择适当嘴唇动作数据地址的方法，有使用随机数的方法，但除等概率选择外，进行嘴唇重叠来选择控制。重复该处理，直到通话开始。另外，不使用随机数而事先规定固定的转变，根据转变顺序，向三维描绘部14通知嘴唇动作数据的地址和帧序号。但是，此时，使用者看到有规律的重复嘴唇动作。例如，可重复显示与“电话呦”的语言一致的嘴唇动作。

身体动作控制部12最初从通话开始前的身体动作图案数据中，如图6(b)所示，将相当于标准状态的身体动作数据的地址和帧序号按从0到数帧依次通知给三维描绘部14。通知数帧后，根据各转变的移动概率产生随机数，选择下个身体动作数据，并将该移动目的的身体动作数据的地址和帧序号从0到数帧通知给三维描绘部14。结束后，再根据各移动概率产生随机数并进行转变。重复该处理，直到通话开始。另外，不使用随机数而将固定的转变事先规定为身体动作图案，根据转变顺序，将身体动作数据的地址和帧序号通知给三维描绘部14。但是，此时，使用者有规律地重复并看到身体动作。例如，可重复显示“取下电话话筒”这种身体动作。

表情控制部13最初从通话开始前的表情动作图案数据中，如图6(a)所示，将相当于通常脸的表情动作数据的地址和帧序号按从0到数帧依次通知给三维描绘部14。通知数帧后，根据各转变的移动概率产生随机数，选择下个表情动作数据，并将该移动目的地的表情动作数据的地址和帧序号从0到数帧通知给三维描绘部14。结束后，再根据各移动概率产生随机数并进行移动。重复该处理，直到通话开始。另外，不使用随机数而将固定的转变事先规定为表情动作图案，根据转变顺序，将表情动作数据的地址和帧序号通知给三维描绘部14。但是，此时，使用者看到有规律的重复表情动作。例如，可重复显示“通常的脸和为难的脸”这种表情动作。

说明三维描绘部14的基本三维描绘动作。三维描绘部14首先通过由数据管理部3通知了的CG角色形状数据的地址、交换前的衣类纹路的地址和交换后的衣类纹路的地址、以及背景数据的地址，从角色形状数据保存部18加载进行描绘的CG角色的形状数据、从角色数据保存部21加载衣类纹路数据、以及从背景数据保存部20加载背景数据。接着，接收从嘴唇动作控制部11通知的嘴唇动作数据的地址和帧序号，从身体动作控制部12通知的身体动作数据地址和帧序号，从表情控制部13通知的表情动作数据的地址和帧序号。通过接收的嘴唇动作数据的地址、身体动作数据的地址、表情动作数据的地址，从角色动作数据保存部加载嘴唇动作数据、身体动作数据、表情动作数据。该加载(load)限于不更新从嘴唇动作控制部11、身体动作控制部12、表情控制部13通知的各动作的地址，在通知最初仅进行一次。另外，因为在收信时在画面中显示对应于特定的通信对方的角色，所以使用者仅通过观看画面中显示的角色就可知道来自谁的收信。

虽然根据嘴唇动作数据生成，该嘴唇动作数据加载了从嘴唇动作控制部11通知的帧序号的动作数据，但这与嘴唇动作数据为形状变形的情况下通常进行的关键帧动画技术一样，通过成为关键的动作数据的插入生成，在纹路的情况下也由成为关键的纹路的插入生成。使用生成的帧序号的动作数据，在形状变形的情况下，变形CG角色形状数据的嘴部形状。在纹路的情况下，通过通常进行的纹路贴图技术，对嘴部进行贴图，但也可在三维描绘处理时进行。

表情动作数据的情况也一样，生成通知的帧序号的动作数据，根据该动作数据，在形状变形时进行脸的变形。在纹路的情况下，由纹路贴图来进行脸部的描绘，但可在三维描绘处理时进行。另外，通过成为关键的身体动作数据的插入来生成通知的帧序号的身体动作数据的动作数据，根据该身体动作数据，对CG角色实施上述变换，确定CG角色的位置和身体状态。

之后，在背景数据、衣类纹路数据、嘴唇动作数据是纹路的情况下，在其纹路、表情动作数据是纹路时使用该纹路，通过通常进行的三维描绘处理(依次进行模型变换、视野变换、透视变换、场景变换、对场景的像素(ピクセル)处理，在对场景的像素处理时实施纹路贴图)，生成图像。此时，相机数据(相机的位置和方向、画面中视野变换、场景变换必需)最初使用默认值。例如，在设定为朝向CG角色正面位于生成身体整体的图像的中心部等中，这种设定求出包含CG角色的最小立方体，并通过与相当于CG角色脚的方向矢量的正面部的方向和反向的光轴来设定画角，使其重心部位于光轴上，使各顶点包含于场景中即可。

另外，视点变更输入部17输入相机数据，通知三维描绘部14，并根据该相机数据进行三维描绘处理，可生成变更视点的图像。另外，视点变更输入部17中准备预置的相机数据，将该预置数据通知给三维描绘部14，进行视点变更。

动作表情输入部16如上所述在使用者按下事先设定的输入按钮，则将身体动作数据的地址或表情动作数据的地址通过数据管理部3，就身体动作数据的地址通知给身体动作控制部12，就表情动作数据的地址通知给表情控制部13。在身体动作数据地址的情况下，身体动作控制部12一旦接受该通知，则对于现在通知三维描绘部14的身体动作数据，若最后的帧数序号通知结束，则通常如上所述选择下一移动目的地的身体动作数据，将强制通知的身体动作数据的地址和帧序号通知三维描绘部14。表情动作数据地址的情况也一样，表情控制部13在现在通知的表情动作数据通知结束后，强制地将数据管理部3通知的表情动作数据的地址和帧序号通知给三维描绘部14。由此，通常进行自动选择的动画，使用者可强制显示根据自身爱好选择的动作。

将如上所述生成的三维描绘结束后的图案传送到显示部15进行显示。

通常，三维描绘部14中的三维描绘处理与显示部15的更新速率一致进行处理。在三维描绘部14的三信描绘处理中通知由嘴唇动作控制部11、身体动作控制部12、表情控制部13通知的动作地址和帧序号，设定为下面使用的数据。在进行下一帧的三维描绘处理时，使用该设定的各动作数据地址和帧序号。如此对来自嘴唇动作控制部11、身体动作控制部12、表情控制部13的通知进行同步控制。

对有关音乐数据进行说明。数据管理部3特定由语音管理表3c对应于发送者ID的语音变换数值参数值和音乐数据ID。在与被发送来的发送者ID对应的值不在语音管理表3c中时，特定默认设定的语音变换数值参数和音乐数据ID。从音乐数据管理表中由音乐ID取得音乐数据的地址。通过取得的音乐数据地址，从音乐数据保存部22加载该音乐数据，传送到语音处理部5。语音处理部5在压缩音乐数据的情况下进行伸展处理，在MIDI数据等的被编码化的音乐数据的情况下，进行保存的音源数据的语音生成处理，通过语音变换部6，从语音输出部7输出音乐。由此，在收信时，通过从语音输出部7输出与通信对方的角色关联的收信音乐，可以容易地确认通信对方。

通过如上操作，在音乐播放的状态下，可显示CG角色，但音乐与CG角色的动作基本不同步(对照音乐数据，为了事先取得同步而形成动作数据来取得同步，所以至少可使最初的输出同步)。这里，描述音乐与CG角色的同步。音乐数据中包含相当于图像数据等使用的时间标记(time stamp)的时间管理数据。在MPEG-4(移动图像专家组阶段4)的旋律中加入时间标记，而且如果是MIDI数据，则称为增量时间(delta time)，若积分控制时间增量数据则可代用。语音处理部5在将音乐数据传送给语音输出部7时，管理时间标记，其中将作为音乐输出使用的时间标记作为时间同步信号，发送给嘴唇动作控制部11、身体动作控制部12、表情控制部13。在嘴唇动作数据、表情动作数据、身体动作数据中也加入从0开始的时间标记。事先与音乐对照来分配时间标记。嘴唇动作控制部11、身体动作控制部12、表情控制部13互相对应被发送来的时间标记和分别控制的动作数据的时间标记序号，但此时，若将此前进行三维描绘来的动作数据的时间标记累加数与各动作持有的时间标记相加，则与音乐时间标记一致。向三维描绘部14同时发送与该对照一致的帧序号和动作数据的地址。通过以上处理，可进行与音乐数据同步的动作控制。

接着，说明通话开始后的动作。通信部1判断与通信对方的通话开始成立。若是通常的电话通信，如果自己打电话，则在对方拿话筒时，通过返回接受信号可知通信成立，另外，在对方打来时，通过拿起话筒将接受信号返回到对方，可知通信成立。便携电话等无线通信和因特网等通信，基本结构也相同，可知通信开始成立。通信部1将通话成立通知数据管理部3。

若数据管理部3收到通信成立通知，则中止对语音处理部5的音乐数据传送，通知开始通话，并且数据管理部3从语音管理表3c中读取语音变换数值参数，通过语音处理部5通知语音变换部6。另外，同时通知嘴唇动作控制部11、身体动作控制部12、表情控制部13通话开始。

若嘴唇动作控制部11、身体动作控制部12、表情控制部13收到通知，则停止向三维描绘部14传送。嘴唇动作控制部11在后述的语音分析部9仅进行声音强度分析处理的情况下，在对图5(a)所示级别0状态的嘴唇动作数据的地址和帧序号仅进行音素分析或进行声音强度分析和音素分析两者的情况下，将图5(b)所示“ん”音的嘴唇动作数据地址和帧序号发送给三维描绘部4。身体动作控制部12将通话开始后的身体动作图案数据的标准状态的身体动作数据地址和帧序号发送给三维描绘部14。表情控制部13将通话开始后的表情动作图案数据的通常脸的表情动作数据地址和帧序号发送给三维描绘部14。一旦三维描绘部14收到从嘴唇动作控制部11、身体动作控制部12、表情控制部13发送的动作数据地址和帧序号，则通过与上述一样的动作进行三维处理，向显示部15发送生成的图像并显示。

若语音处理部5收到通话开始通知，则对从通话部1发送来的通信媒体进行到达语音数据的语音处理(语音数据的解码和去噪声)，将语音处理后的数据发送给语音变换部6和语音分析部9。

语音变换部6根据发送来的语音变量或数值参数，施加语音变换(例如如上所述，在进行滤波处理时，加上该滤波器的)后发送到语音输出部7。因此，将通话者的语音变换为其它语音后输出。

语音分析部9对发送来的语音数据进行声音强度分析或音素分析或这两种分析。如图5(a)所示，声音强度分析对预定语音数据的一定期间(例如显示速率(レ—ト)时间)，积分其振幅绝对值(采样值的加法运算)，对应于预定该积分值的区分值来确定级别值。音素分析通常进行在语音识别中进行的处理，各音素分类“ん”、“あ”、…、“お”之一或输出其比例。将标准化了的基本统计汇集的“ん”、“あ”、“い”、…、“お”音的语音数据作为模板，音素分解输入的语音数据进行标准化和模板匹配，选出匹配度最高的或输出匹配度比例。匹配度规定适当的距离函数(欧几里得距离、希尔伯特、马氏距离)，选择由该距离函数计算时距离最小的，算出由测定“ん”、“あ”、…、“お”音的所有距离的和除以各距离的值作为比例。将以上的语音分析结果发送给感情推定部10。另外，根据语音分析结果如上所述确定嘴唇ID，将确定的嘴唇ID发送给嘴唇动作控制部11。

嘴唇动作控制部11通过语音分析部9发送来的嘴唇ID，根据嘴唇动作图案数据，确定与其对应的嘴唇动作数据的地址，将嘴唇动作数据的地址和帧序号发送到三维描绘部14。

感情推定部10按预定的一定期间保存从语音分析部9发送的语音分析结果，对该保存结果推定通话者的感情状态。例如，将分类的感情设为“通常”、“笑”、“生气”、“哭泣”、“烦恼”。关于声音强度，保持一定期间的级别图案作为各感情模板。如果将一定期间设为例如三次语音分析，则若为“级别2、级别2、级别2”，则保持“通常”作为模板，若为“级别3、级别2、级别3”，则保持“笑”作为模板，若为“级别3、级别3、级别3”，则保持“生气”作为模板，若为“级别1、级别2、级别1”，则保持“哭泣”作为模板，若为“级别0、级别1、级别0”，则保持“烦恼”作为模板。对于这些，对保存的三次语音结果，计算各级别值差的绝对值的和(希尔伯特距离)或各级别差的平方和(欧几里得距离)，将最近的判断为此时的感情状态。或者，计算对各感情的距离的和，将用该和除以对各感情的距离后作为比例来算出感情状态。在发送音素分析结果的情况下，保持关键字作为字典模板，并通过与关键字的模板匹配来进行。但是，在本实施例中，例如音素分析仅为元音分析，所以使用如下方法。例如，在生气的情况下，元音显示表示“生气”、“愤怒”、“殴打”等单词，表示为“いあえいう”、“いいおい”、“あうう”，将一定期间设为三次语音分析结果的，并在该排列中，从头形成三文字的字典。同样，对其它感情状态也一样形成字典。通常这些字典可当然得到相同的行，进行日常对话等的分析，包含于频度高的一方的感情状态字典中，事先生成字典模板。在一定期间是三次的情况下，元音的组合为216组，字典模板按感情状态分类216个词汇。对保存的三次音素分析结果进行字典模板和模板匹配，判断感情状态。在对其进行声音强度情况与音素情况组合时、在判断都是相同的感情状态时、在感情状态不同时，由随机数概率地选择某一感情状态作为感情状态。将上述算出的感情状态发送给身体动作控制部12和表情控制部13。

另一方面，将使用者产生的对话输入语音输入部8，向语音处理部5发送输入的语音数据。将麦克风用作语音输入部8。语音处理部5对发送来的输入语音数据进行通常进行的去噪声处理和去回声处理，将处理后的语音数据发送给语音分析部9。另外，将处理后的语音数据进行取决于通信方法的处理、例如编码处理数据流化、数据包化处理后，通过通信部1发送给通信对方。语音分析部9对发送来的输入语音数据也进行上述声音强度分析和音素分析，并与表示作为对输入语音的语音分析结果和输入语音的识别符一起发送给感情推定部10。感情推定部10如上所述将语音分析结果在一定期间内保存在对输入语音的专用保存区域中，对保存结果进行与上述一样的感情推定处理。但是，对感情推定进行加入听众时特有的状态、例如“认可”状态等感情推定。即，对发送对方的语音数据和使用者本人的语音数据的感情推定也可不同。将感情推定结果发送给身体动作控制部12和表情控制部13。

另外，作为其它感情推定方法，有使用韵律和振幅、强势等语音数据的频率信号的方法。图9是表示使用频率信号的感情推定方法的处理顺序的流程图。另外，将推定作为最基本感情分类的“生气”、“悲伤”、“喜悦”及“标准”的四种感情作为前提说明该感情推定方法。

首先，使用者本人的语音作为语音数据输入语音输入部8后发送给语音处理部5。另一方面，通信对方的语音通过通信部1输入语音处理部5(S901)。语音处理部5对发送来的语音数据进行通常进行的去噪声处理和去回音处理，并将处理后的语音数据发送给语音分析部9。

语音分析部9通过使用韵律和振幅、强势等语音数据的频率信号的处理取出特征量。在该特征量中，以反映每种感情不同的基本频率为基础，使用例如FOmax(说话中的基本频率(FO)的最大值Hz)、Amax(说话中的振幅最大值Hz)、T(从说话开始到结束的时间长sec)、FOinit(说话刚开始后的基本频率Hz)、FOrange(说话中的最大基本频率-最小基本频率Hz)等。另外，可向特征量中加入作为其它参数，例如性别差补偿等。

作为语音分析部9的基本频率的提取方法，使用考虑发话整体连续性的DP匹配的方法。简单说明该提取方法，就是输入语音输入部的语音数据在语音分析部9一旦变换为频率区域的数据后，通过预定操作成为时间区域的数据。从该数据中按峰值大的顺序选择某一常数，通过预定处理使其连续来提取基本频率(S902)。

接着，感情推定部10根据语音分析部9提取的特征量来算出统计(S903)，由此来推定各语音数据属于哪个感情组(S904)。根据该感情推定方法，能够以高的概率来推定说话者的感情。之后，感情推定部10将感情推定结果发送给嘴唇动作控制部11、身体动作控制部12、以及表情控制部13。

因此，显示在虚拟电视通话装置的画面中的角色推定使用者和通话对方的感情而动作，所以可实现娱乐性更高的虚拟电视通话装置。

另外，身体动作控制部12将下一动作转变确定(预定)为与发送来的感情推定结果对应的身体动作数据，如果现在发送给三维描绘部14的身体动作数据的地址和帧序号完成帧数，就将确定后的身体动作数据的地址和帧序号发送给三维描绘部14。在概率地控制身体动作数据的转变确定的情况下，决定引起对应于感情推定结果转变的概率或不引起的概率(由于是二项分布，若决定单方的概率，则必然还剩余需决定的)，使用根据其分布的随机数来确定转变。表情控制部13也通过同样的处理进行转变确定处理，并将表情动作数据的地址和帧序号发送给三维描绘部14。

三维描绘部14使用从嘴唇动作控制部11发送来的上述嘴唇动作数据的地址和帧序号、从身体动作控制部12发送来的身体动作数据的地址和帧序号、从表情控制部13发送来的表情动作数据的地址和帧序号，通过与通话开始前时同样的处理生成图像，并发送到显示部15。显示部15显示发送来的图像。

在有从动作表情输入部16和视点变更输入部17输入的情况下，与通话开始前时一样，将对应于该输入的动作和表情反映到CG角色，或进行视点变更。

在同时显示模式的情况下，基本动作也与上述动作一样，但不同之处在于需要追加本人部分。即，在通话开始前和开始后，向数据管理部3通知的数据中加入本人的数据。另外，嘴唇动作控制部11、身体动作控制部12、表情控制部13除对方的CG角色动作数据的地址和帧序号外，在发送表示对方和本人的识别符的同时，还向三维描绘部14发送本人的CG角色的动作数据地址和帧序号。三维描绘部14根据该识别符确定对方CG角色的身体状态和表情、嘴唇状态、本人的CG角色的身体状态和表情、嘴唇状态，进行上述同样的处理生成图像，并将生成的图像发送给显示部15显示。在从语音处理部5发送的语音数据中加入对方或本人的识别符后，将语音数据发送到语音分析部9。语音分析部9进行与上述一样的处理，加上对方或本人的识别符后，将语音分析结果发送给嘴唇动作控制部11和感情推定部10。嘴唇动作控制部11通过对方或本人的识别符来确定来自对方或本人的嘴唇动作转变或嘴唇动作图案的嘴唇动作数据的地址和帧序号。感情推定部10进行与上述一样的感情推定，进行分别对应于对方和本人的感情推定，将结果与对方或本人的识别符一起发送给身体动作控制部12和表情控制部13。身体动作控制部12由对方或本人的识别符来确定对方的身体动作转变目的地、本人的转变目的地，将各身体动作数据的地址和帧序号与识别符一起发送到三维描绘部14。表情控制部13也一样，一边分别确定对方的表情动作转变目的地、本人的表情动作转变目的地，一边将各表情动作数据的地址和帧序号与识别符一起发送到三维描绘部14。

另外，感情推定部10的感情推定结果通过基本的交互对话，推定针对对方对话内容的对方和本人的感情，将推定结果反映到对方和本人的CG角色的身体动作、表情动作，之后，接受该结果的本人的对话内容的感情推定结果一样交互重复地反映到对方和本人的CG角色的身体动作、表情动作上。

视点变更输入部17边输入边与上述一样生成变更视点的图案，在显示部15中显示。在本实施例中，描述了动作表情输入部16进行对方动作和表情变更的动作，设置对方用和本人用的输入按钮，当按下输入按钮时，除加上对方或本人的识别符外，一样进行来自数据管理部3的处理，对方的CG角色和本人的CG角色也进行对应于动作表情输入部16的变更。

图7表示流水线化了的以上从语音输入到图像显示的一连串动作。语音处理部5的处理结果作为语音变换输出，在描绘时使用双缓冲器。从图7可知，显示为语音变换输出的CG角色的嘴唇动作通过显示速率产生两帧的延迟，例如显示速率为30帧/秒时是66ms左右，由于看见而不判断。另外，感情推定结果产生在语音分析结果的保存一定期间内加上一帧的延迟。如图7所示，若保存用期间为3帧，则产生4帧的延迟(显示速率为30帧/秒时大致为134ms)。但是，在实际的人说什么时，因为加上生成对其感情之前的时间(也取决于识别内容，理解对方的词汇后，推定为数100ms左右)，该延迟在保存期间不太大时不成为问题。

(实施例2)

下面参照附图来说明本发明实施例2的虚拟电视通话装置。

图2表示本发明实施例2的虚拟电视通话装置的结构。包含：通信部101、数据下载部102、通信数据判断部103、角色背景选择输入部2、数据管理部104、语音选择输入部4、语音处理部5、语音变换部6、语音输出部7、语音输入部8、语音分析部9、感情推定部10、嘴唇动作控制部11、身体动作控制部12、表情控制部13、三维描绘部14、显示部15、动作表情输入部16、视点变更输入部17、角色形状数据保存部18、角色动作数据保存部19、背景数据保存部20、纹路数据保存部21及音乐数据保存部22。

下面说明说明如此构成的本发明实施例2的虚拟电视通话装置，但由于仅与本发明实施例1在CG数据下载上不同，所以仅说明CG数据的下载动作。

在本实施例中，下载数据为CG角色数据(形状数据、衣类纹路数据、表情图案数据和表情动作数据、嘴唇动作图案数据和嘴唇动作数据、缩略图像数据)、身体动作图案数据和身体动作数据、背景数据、音乐数据，但分别下载各数据时也一样进行。

从数据下载部102通过通信部101访问数据保存用服务器。该访问与通过通常的便携电话下载时和通过个人计算机的下载时进行的一样。例如，可以由IP地址特定服务器，通知服务器设备访问，进行TCP/IP协议的手续。接着，由http和ftp协议发送服务器中保存的上述数据的目录，数据下载部102接收发送结果。使用者从目录中选择想下载的数据。例如，通过通信部101向通信数据判断部103发送目录，通信数据判断部103判断该数据位于目录中，通过数据管理部104发送给三维描绘部14。三维描绘部14图像化目录后发送给显示部15进行显示，从而使用者可确认其内容。

通过数据下载部102来进行使用者的数据选择。通信部101根据上述协议规定向服务器发送选择的数据名称或识别符。服务器侧根据上述协议规定向通信部101发送选择的数据文件，通过通信数据判断部103判断通信内容为数据文件，并发送给数据管理部104。数据管理部104对该数据进行CG角色数据、身体动作图案数据和身体动作数据、背景数据或音乐数据的判断和数据大小的特定。在将数据下载部102的选择结果通过通信部101、通信数据判断部103通知给数据管理部104的情况下，由于事先判断，所以不必该判断。接着，数据管理部104对应于数据内容，对角色形状数据保存部18、角色动作数据保存部19、背景数据保存部20、纹路数据保存部21及音乐数据保存部22进行保存用空区域的询问，在存在空区域的情况下，将数据文件发送给该保存部。该保存部保存数据文件，将保存的地址发送给数据管理部104。数据管理部104对应于数据内容，向管理表追加应保存在管理表中的数据。例如，在图3的CG角色数据的情况下，追加4作为CG角色ID，向该栏中记入从保存部返回的地址。其它数据的情况也一样。完成管理表追记后，将完成通知通过通信数据判断部103、通信部101发送给数据下载部102，通过通信部101将数据下载结束发送给服务器，下载处理结束。

在没有数据保存区域时，将没有数据保存区域通过通信数据判断部103、通信部101通知数据下载部102。数据下载部102通知使用者没有保存区域(如上所述显示在显示部15中等)，下载处理与上述一样，将完成通知通过通信数据判断部103、通信部101发送给数据下载部102，通过通信部101向服务器发送数据下载结束，下载处理结束。

在语音数据通信时，通信数据判断部03判断是语音数据，发送给语音处理部5。

另外，本发明的实施例1、2可实现为对具有语音通信部、显示部、语音输入输出部、中央运算装置和存储器的装置的程序。例如，例如是便携电话、袖珍计算机、带显示装置的固定电话机、带通信功能的车载终端器、个人计算机等。但是，具有专用的三维处理装置或语音输入输出装置、语音处理装置的设备可使处理高速化。在个人计算机的情况下，使用具有三维绘图板和声霸板的装置有效。另外，显示部15可使用CRT、液晶、有机EL等，不管其种类如何。

图8(a)、(b)表示本发明的虚拟电视通信的示意图，通过如上结构，显示对应于选择接收对方的CG角色，享受与CG角色的对话。另外，也同样显示使用者本人，享受虚拟空间中的对话。另外，设定时的动作也可在通话开始前、通话开始后进行动作。

另外，图10(a)是表示具备本发明虚拟电视通信功能的个人计算机(下面记为PC)1001的图，具备扬声器1002和麦克1003。

使用者若选择自身或通信对方至少一方的角色开始通话时，感情推定部10根据通话中的语音来推定感情。根据该感情推定，使画面1004中显示的CG角色变化动作和表情，所以是更具有娱乐性的虚拟电视通话装置。另外，由于PC1001的使用者可自由选择对方的角色和声色，所以可以是例如在上司的设定中将背景设定设为森林、将角色设定设为熊、将语音变小等具备高的娱乐性的虚拟电视通话功能的PC1001。

图10(b)是表示具备本发明的虚拟电视通话功能的便携电话1005的图，该便携电话1005具备免提功能，边进行感情推定的动作，边在画面1006中显示选择的角色。因此，可以是具有娱乐性高的虚拟电视通话功能的便携电话1005。

另外，为了提高本发明的感情推定功能，也可向虚拟电视通话装置附加新的传感器部。图11表示在图1或图2的虚拟电视通话装置的功能框图中添加传感器部1101后的框图。传感器部1101是检测使用者的体温和心跳、握便携设备的握力等变化，向感情推定部10传递变化用的处理部。例如，传感器部1101通过热敏电阻检测使用者的体温变化，将结果传递给感情推定部10，感情推定部10使用作为新的感情推定参数的体温变化来确实进行感情推定。

另外，图12(a)是表示为了感情推定而具备各种传感器部的便携电话的使用例，具备检测使用者握力变化的握力测定部1201。图12(b)是表示为了感情推定而具备各种传感器部的便携电话的参考图，具备测定握力测定部1201及使用者体温变化用的热敏电阻1202。因此，使用上述语音数据以外的新的参数来进行较确实的感情推定功能。

另外，本发明不限于上述各实施例，可在其可利用范围内实施，在上述实施例中说明为在画面中显示使用者和通信对方至少一方的角色的虚拟电视通话装置，但例如也可认为是PC通信等对汇聚多人的通信进行感情推定，在画面中显示伴随感情推定的多个角色的虚拟电视通话装置。另外，将感情推定结果反映在音乐数据中，输出阴暗、明快、欢乐、和谐等音乐来进行CG角色的表情动作和身体动作的控制。

发明效果

通过上述结构，本发明可将通信对方显示为接听者选择的虚拟三维CG角色，利用利用通信对方的对话，与虚拟三维CG角色进行语音对话。由此，通过与所谓看通信对方的脸或看类似图像、完成变为不真实角色的功能不同的方法，可实现提高语音对话娱乐性的新的通信终端。另外，本发明不象上述现有技术那样使用服务器装置，可实现实现虚拟空间中对话的带显示装置的通话装置。另外，因为可下载，所以可将CG数据更新为新数据。即使通话对方是同一人，也可通过交换CG角色，并由语音变换来变更语音，享受与各种CG角色的对话。

另外，是在接听者侧可选择自己的角色及通话对方的角色的同时，可使用感情推定功能对适于通话中对话的感情表现进行表征的提高娱乐性的新的虚拟电视通话装置。

如上所述，认为本发明的效果绝大部分在于对语音对话装置的对话带来新的享受和喜悦。

Claims

1、一种虚拟电视通话装置，其特征在于：具备

通信单元，进行语音通信；

角色选择单元，选择使用者本人或通信对方至少一方的CG角色形状数据；

语音输入单元，输入上述使用者本人的语音；

语音输出单元，输出上述通信对方的语音；

语音分析单元，对通过上述通信单元接收的通信对方的语音数据或上述接收的通信对方语音数据和通过上述语音输入单元输入的使用者本人的语音数据两者进行语音分析；

感情推定单元，使用上述语音分析单元的语音分析结果，推定通信对方或通信对方和使用者本人的感情状态；

动作控制单元，根据上述感情推定单元进行上述CG角色的动作控制；

描绘单元，根据上述CG角色形状数据和上述动作控制单元的控制信息，使用生成的动作数据，来进行描绘处理，并生成图像；和

显示单元，显示上述描绘单元生成的图像。

2、根据权利要求1所述的虚拟电视通话装置，其特征在于：

上述感情推定单元向上述动作控制单元通知该感情推定单元的推定结果，

上述动作控制单元基于该通知结果来特定上述动作数据。

3、根据权利要求1所述的虚拟电视通话装置，其特征在于：

上述动作控制单元具备嘴唇动作控制单元，该嘴唇动作控制装置通过上述语音分析单元的语音分析结果，生成上述CG角色数据的嘴唇动作控制信息，

上述描绘单元根据上述CG角色形状数据和上述嘴唇动作控制单元的控制信息，使用生成的嘴唇动作数据，来进行描绘处理，并生成图像。

4、根据权利要求3所述的虚拟电视通话装置，其特征在于：

上述感情推定单元向上述嘴唇动作控制单元通知该感情推定单元的推定结果，

上述嘴唇动作控制单元基于该通知结果来特定上述嘴唇动作数据。

5、根据权利要求4所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置具备：嘴唇动作数据的保存单元；和可从外部装置进行嘴唇动作数据的下载、并保存在上述保存单元中的单元。

6、根据权利要求4所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置具备嘴唇动作图案数据的保存单元；和可从外部单元装置进行嘴唇动作图案数据的下载、并保存在上述保存单元中的单元。

7、根据权利要求1所述的虚拟电视通话装置，其特征在于：

上述动作控制单元具备进行上述CG角色身体动作控制的身体动作控制单元，

上述描绘单元根据上述身体动作控制单元生成的身体动作控制信息，使用身体动作数据进行描绘处理。

8、根据权利要求7所述的虚拟电视通话装置，其特征在于：

上述感情推定单元向上述身体动作控制单元通知该感情推定单元的推定结果，

上述身体动作控制单元基于该通知结果来特定上述身体动作数据。

9、根据权利要求8所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置具备：身体动作数据的保存单元；和可从外部单元装置进行身体动作数据的下载、并保存在上述保存单元中的单元。

10、根据权利要求8所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置还具备确定特定身体动作的身体动作图案数据的选择单元，

上述身体动作控制单元根据上述选择单元选择的上述身体动作图案数据进行身体控制。

11、根据权利要求10所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置具备：身体动作图案数据的保存单元；和可从外部单元装置进行身体动作图案数据的下载、并保存在上述保存单元中的单元。

12、根据权利要求8所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置具备可控制CG角色的身体动作的指定和开始的单元。

13、根据权利要求1所述的虚拟电视通话装置，其特征在于：

上述动作控制单元具备进行上述CG角色表情动作控制的表情控制单元；

上述描绘装置根据使用表情动作数据来进行描绘处理，该表情动作数据基于上述表情控制装置生成的表情动作控制信息。

14、根据权利要求13所述的虚拟电视通话装置，其特征在于：

上述感情推定单元向上述表情控制单元通知该感情推定单元的推定结果，

上述表情控制单元基于该通知结果来特定上述表情动作数据。

15、根据权利要求14所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置具备：表情动作数据的保存单元；和可从外部单元装置进行表情动作数据的下载、并保存在上述保存单元中的单元。

16、根据权利要求14所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置具备：表情图案数据的保存单元；和可从外部单元装置进行表情图案数据的下载、并保存在上述保存单元中的单元。

17、根据权利要求14所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置具备可控制CG角色的表情动作的指定和开始的单元。

18、根据权利要求1所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置还具备将接收到的通信对方的语音变换为其它语音的语音变换单元。

19、根据权利要求18所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置还具备语音选择输入单元，该语音选择输入装置在将通过上述语音变换单元接收到的通信对方的语音变换为其它语音时，可选择其音质。

20、根据权利要求1所述的虚拟电视通话装置，其特征在于：

上述描绘单元在从通信对方通信收信时生成该通信对方的CG角色图像，

上述显示单元在从上述通信收信时到语音通信开始前，显示上述CG角色的图像，来表示语音通信等待状态。

21、根据权利要求1所述的虚拟电视通话装置，其特征在于：

上述语音输出单元在从通信对方通信收信时，输出分别对应于该通信对方的音乐数据，来表示语音通信等待状态。

22、根据权利要求21所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置具备：音乐数据的保存单元；和从外部装置进行音乐数据的下载、来保存在上述保存单元中的单元。

23、根据权利要求1所述的虚拟电视通话装置，其特征在于：

上述描绘单元使用背景数据进行描绘处理，并生成图像。

24、根据权利要求23所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置还具备进行背景数据选择的背景选择单元。

25、根据权利要求24所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置具备：背景数据的保存单元；和从外部装置进行背景数据的下载、并保存在上述保存单元中的单元。

26、根据权利要求1所述的虚拟电视通话装置，其特征在于：

上述描绘单元进行三维描绘处理，并生成三维图像。

27、根据权利要求1所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置具备：CG角色的衣类纹路数据的保存单元；和从外部装置进行CG角色衣类纹路数据下载、并保存在上述保存单元中的单元。

28、根据权利要求1所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置具备：CG角色形状数据的保存单元；和从外部装置进行CG角色形状数据下载、并保存在上述保存单元中的单元。

29、根据权利要求1所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置具备是否进行CG角色显示的显示模式的选择单元。

30、根据权利要求29所述的虚拟电视通话装置，其特征在于：

上述显示模式是仅进行通信对方的CG角色显示的通信对方显示模式、显示通信对方和使用者本人的CG角色的同时显示模式、不进行CG角色显示的非显示模式之一。

31、根据权利要求1所述的虚拟电视通话装置，其特征在于：

上述虚拟电视通话装置具备用于从根据使用者意图的视点方向进行CG角色的显示的视点变更单元。

32、一种虚拟电视通话系统，至少在使用者与通信对方的通话装置间进行通话，其特征在于：该虚拟电视通话系统至少由使用者的通话装置和通信对方的通话装置构成，

上述通话装置具备：

通信单元，进行语音通信；

语音输入单元，输入上述使用者本人语音；

语音输出单元，输出上述通信对方的语音；

语音分析单元，对通过上述通信单元接收的通信对方的语音数据或通过上述接收的通信对方语音数据和上述语音输入单元输入的使用者本人的语音数据两者进行语音分析；

显示单元，显示上述描绘单元生成的图像。

33、根据权利要求32所述的虚拟电视通话系统，其特征在于：

上述动作控制单元基于该通知结果来特定上述动作数据。

34、一种程序，至少通过通信对方和使用者进行通信，用于通信对方装置与自装置进行虚拟电视通话，其特征在于：包括

通信步骤，进行语音通信；

角色选择步骤，选择使用者本人或通信对方至少一方的CG角色形状数据；

语音输入步骤，输入上述使用者本人语音；

语音输出步骤，输出上述通信对方的语音；

语音分析步骤，对上述通信步骤接收的通信对方的语音数据或上述接收的通信对方语音数据和上述语音输入步骤输入的使用者本人的语音数据两者进行语音分析；

感情推定步骤，使用上述语音分析步骤的语音分析结果，推定通信对方或通信对方和使用者本人的感情状态；

动作控制步骤，根据上述感情推定步骤进行上述CG角色的动作控制；

描绘步骤，根据上述CG角色形状数据和上述动作控制步骤的控制信息，使用生成的动作数据，来进行描绘处理，并生成图像；和

显示步骤，显示上述描绘步骤生成的图像。

35、根据权利要求34所述的程序，其特征在于：

上述感情推定步骤基于该感情推定步骤的推定结果，来特定上述动作数据。