久久首页
免费软件
网络时尚
网络学堂
专题讨论
网络资源
网络游戏
网络文档
网络产品
网站导航: 首页 > 网络知识 > 网络基础 学堂讨论 | 推荐文章

语音技术在Internet上的新应用


2003-04-10 汤红东 
 
  目前Internet的发展非常迅速,用户增加也非常快。业务的增加也是非常多的。既有传统的数据,图像业务,现在又有了语音服务,如IP电话、呼叫中心等。为了统一各个厂家网上语音产品的标准,W3C发布了Voice Browserbro(语音浏览器)标准的草案。现在这个组中的成员有AT&T、Cisco、Hitachi、HP、IBM、Intel、Lucent、Microsoft、Motorola、Nokia、Nortel、Sun和Unisys等公司。

  在这个标准中,Voice Browser组定义了几种支持语音输入和输出的链接语言。这些链接语言使语音设备可以跨越各种硬件和软件平台。特别是设计了关于对话,语音识别语法,语音合成,自然语言语义和搜集可重复使用的对话组件的链接语言。这些链接语言和组件就构成了未来语音界面框架。

  一、Voice Browser

  Voice Browser是一种翻译语音链接语言产生语音输出或者翻译语音输入的(软件和硬件)设备。它也有可能接受和产生其他形式的输入和输出。当前Voice Browser的发展已经可以使用户通过固定电话或蜂窝电话听、说来获得World Wide Web上的信息。如2000年11月7日亚洲语音在线公司正式开通了中文电话上网业务-中文语音网关。用户只要拨通010-63966666这个号码,经过简单注册就可以用电话、手机、车载电话通过人机交谈的方式从网上获得邮件、股票、航班、商场折扣、娱乐和新闻等信息。这些Voice Browser接受DTMF和语音作为输入,可以输出合成的语音或者重放事先录好的话。通过Voice Browser解析的语音链接语言在www网上是可以找到的。然而Voice Browser却还有许多其他方面的发展。

  在硬件方面,包括电话、蜂窝电话、手提电脑、掌上电脑、台式计算机都可以应用Voice Browser技术。Voice Browser可以嵌入到一些设备中去,如电视、收音机、录像机、远程控制设备、微波炉、电冰箱、咖啡壶、门铃等。其实可以是一切电子或电气设备。在软件方面,可以访问商业信息,包括在企业的前台询问呼叫者的要求,自动电话预订服务,航班到达和离开信息,电影戏剧订票服务和家庭银行服务。可以访问公共信息,如天气、交通、本地、国际国内新闻、国际国内股票市场信息和电子商业交易。可以访问个人信息,如日历、地址和电话表、商店列表。帮助用户用语音邮件和其他人联系。

  现在的Voice Browser并不支持通过HTML页进行语音接口。当前有一些公司正在创建可以有语音功能的HTML浏览器。这些有语音功能的HTML浏览器在把文本变成语音时必须决定他们的顺序,并且有可能把一些非文本的东西如表格,图象等变成语音。然而Voice Browser只是把用户确切需要的信息变成语音。

  二、语音界面框架

  图1语音界面框图

  白框图代表了有语音功能的WEB应用。黑箭头代表了在这些组件中的数据流。蓝框图表明了使用特定链接语言(ML)的数据,它们使各种组件完成各自的任务。这个语音接口框架组成包括:

  ASR(Automatic Speech Recognizer)自动语音识别器:它接受用户发出的语音然后转变成文本。ASR用一个语法器从用户的口语中识别单词。一些ASR是通过发展(Speech Grammar Markup Language(语音语法链接语言)来使用语法器的。另外一些ASR使用从大规模的口语语料库产生的统计语法。这就表明这些语法用的是N-gram Stochastic Grammar MarkupLanguage(随机听写语法链接语言)。

  DTMF Tone Recognizer(DTMF音调识别器):接受用户的拨号音频信号。用户可以通过它输入数字来进行菜单选择。

  Language Understanding Component(语言理解组件):从一个文本中用预先标注的语法提取出语义。这些文本可能是被ASR处理过,也可能是用户直接从键盘输入的。语言理解组件可能应用标注语法。语言理解组件的输出是用Natural Language Semantics Markup Language.(自然语言语义链接语言)来表示的。

  Context Interpreter(上下文解析器):它通过从对话历史(表1中没有)中获取上下文,这样可以增强Language Understanding Module(语言理解模式)。例如上下文解析器可以用代名词所指的名词来代替这个代名词。上下文解析器的输入和输出是用Natural Language Semantics Markup Language(自然语言语义链接语言)来表示的。

  Dialog Manage(对话管理器):它提示用户输入,并理解输入的意思然后决定下一步怎么做。这些都是根据用VoiceXML 2.0标注的对话描述结构来进行的。根据输入接收的东西,对话管理器将调用应用服务或者从网上下载其他的对话脚本。对话管理器是通过Natural Language Semantics Markup Language(自然语言语义链接语言)来接收标注输入的。对话脚本是参考Rsusable Dialog Cmponents(可重复使用对话组件)的,它也只是可以重复使用多种应用对话组件中的一部分。

  Media Planner(媒体计划器):它将决定从对话管理器出来给用户输出是合成语音还是预先的录音。

  Recorded audio player(录音机):播放预先的录音文件给用户。

  Language Generator(语言生成器):接受来自媒体计划器的文本并且通过TTS准备把语音送给用户。这些文本可能包含了用Speech Synthesis Markup Language(语音合成链接语言)表示的链接标签。这种语言对于如何产生声音给出了提示和建议。这些标签可以由语言生成器自动产生,也可以由开发者人工插入。

  Text-to-Speech Synthesizer(TTS,文本-语音合成):接收来自语言生成器的文本,然后根据用Speech Synthesis Markup Language标注产生象人说话一样的声音。

  尽管各种具体的voice browser在具体的细节上可能有所不同,但是它们还是得用上图中的各种链接语言来完成这个系统。

  voice browser它是一个基于服务器的应用。这与WAP协议不同,它是基于客户端的一种应用。这是因为语音识别,语音理解和合成等一些技术集成在客户端不现实的,也是很困难的。例如象手机要实时完成大规模连续语音识别,现在还不行。三星手机也只能是完成几十个电话号码的识别,离这个要求还差很远。最简单的情况就是客户端只负责接收数据并且传输到服务器上,其他的工作由服务器来完成,从而保证实时性和准确性。但是这并不是一成不变的,随客户端的不同,服务器承担的任务可以不一样。例如一些特征提取可以在客户端进行,识别在服务器上;小词汇量的识别在客户端上,象三星手机那样。大词汇量的识别在服务器上进行。

  三、Voice Browser的优点

  因为人们从小到大都是用语言进行交流,所以语音接口是一个非常自然的人机交互接口。现在人们接答固定电话和蜂窝电话并没有用上Voice Browser技术。一些Voice Browser设备可能有小屏幕,象移动电话和掌上电脑那样。但是在那样小的屏幕上用键盘输入不是一件令人愉快的事情。同样在那样小的屏幕上阅读信息也不是一件轻松的事情。这时Voice Browser就体现出了它的优越性。

  现在人们上网主要还是通过台式计算机和手提电脑来上网的。虽然有了WAP协议,手机也可以上网浏览,但是很不方便。另外现在上网还是需要许多计算机知识,对于发展中国家,象我们中国大多数人来说,门槛还是过高。而应用Voice Browser可以使我们轻松用各种设备如电话,电视等一切电子或电气设备走进互联网。

  在将来,Voice Browser还可以支持其他的模式和媒体,例如用笔,图象和传感器作为输入,用活动图象和激励控制来作为输出。例如语音和笔输入可能适合我们亚洲用户。因为我们所说的语言并不是与QWERTY键盘一致的。一些Voice Browser也是便携的。这样他们可以在任何地方:家里,办公室,路上使用。所以网上信息对许多听众来说也是随时可得的。特别是对那些有电话或移动电话的用户更是如此。Voice Browser同时为那些盲人或需要访问Web,但是手和眼睛却要干其他事情的用户提供了方便的实用接口。也使盲人用户获得了和正常人一样的工作空间。

  同时它可以跨越各种平台,象电脑,电视,电话(包括移动电话)等,使人们可以随时随地获取所要的网上信息,并用语音表达出来。随着其中各项技术的发展,成熟和完善,这个市场将会迅速发展起来。
 
发表评论 推荐文章 关闭窗口
 相关内容
- 网络之十问十答 2003-04-09
- Web动画的基础知识 2004-05-24
- 网络基础篇 2004-05-24
- 个人电脑防黑的安全准则(2) 2004-05-24
- 个人电脑防黑的安全准则(1) 2004-05-24
- 无法浏览网页的解决办法(3) 2004-05-24
- 无法浏览网页的解决办法(2) 2004-05-24
- 无法浏览网页的解决办法(1) 2004-05-24
- 网上冲浪九大注意事项 2004-05-24
- 下载网上非链接文件 2004-05-24
 
 学堂分类
网络知识操作系统
网络应用网络服务
网页开发网络编程
数据存储网络设备
 文章搜索
 
网站简介 | 广告服务 | 编程支持 | 设计服务 | 诚邀合作 | 访客留言
Copyright © 1999-2004 99NET. All Rights Reserved
版权所有 久久网络工作室
Email:webmaster@99net.net