Passar para o conteúdo principal

Além da TV em direto - O que significa a interface de utilizador da Xbox One para os jogadores

O Digital Foundry sobre a dash de nova geração, controlo por voz...e Kinect.

"Xbox on."

Não temos o hábito de falar para as nossas consolas. É estranho - se não mesmo tolo. Não gostamos da forma como os comandos de voz demoram mais a ser registados do que o bom e velho pressionar de um botão e não temos a certeza se irá mesmo funcionar mesmo se tivermos coragem para comandar vocalmente as nossas consolas. Então qual é o objetivo de usar voz para ligar a nossa máquina de jogos se vamos pegar no comando de qualquer das formas? E o quão útil é o controlo de voz se ainda precisas de comandos para a TV e sistema de som?

O que era tecnologia nova - impressionante tecnologicamente - no Kinect original forma uma base fundamental da interação com a Xbox One, e do que vimos na Gamescom, paralelos com a Xbox 360 não tem muitos fundamentos. O controlo de voz na XO funciona mesmo e parece ver genuinamente útil. Deverá ser mais rápido que usar o comando em certas funções, mas em termos ideais usarias ambos em sintonia. E quanto ao isolamento da Xbox do resto dos componentes no teu sistema, isso é agora coisa do passado.

"Irá funcionar com qualquer TV, quaisquer amplificadores. Irá funcionar com qualquer equipamento AV em casa," diz o diretor de planeamento de produto na Xbox Albert Penello. "Quando dizemos 'Xbox On' podemos mesmo ativar todo o nosso sistema e controlar tudo apenas com a voz."

Com total integração com o sistema, o controlo por voz ganha a sua vida. Penello associa a incorporação da XO com o teu equipamento ao Harmony universal remote, exceto que a tua voz é a chave. Podes caminhar pela tua sala e a tua voz comanda tudo: não precisas de pegar no teu comando Xbox, não precisas de múltiplas rotas para aceder a cada parte do teu sistema. Duas palavras e está a correr. A XO está sempre ligada. Mesmo no seu estado adormecido de baixo consumo, deverá reativar-se completamente antes da tua HDTV conseguir apresentar a imagem. De uma perspetiva sobre a dashboard pelo menos, os dias de ficares à espera que a tua consola arranque deverão ser agora coisa do passado.

Para esta tecnologia trabalhar com eficácia, precisam acontecer três coisas. Primeiro, a tecnologia de reconhecimento de voz do Kinect tem que funcionar - nada fácil considerando a quantidade de vozes que suporta, e o leque de sotaques para processa com eficácia. Segundo, a XO precisa conhecer com exatidão qual o equipamento que está na sala para falar as suas próprias línguas individuais de infra-vermelhos. E finalmente, e talvez mais crucial, os sinais IV que emanam da consola devem sempre precisar de serem registados com o equipamento alvo.

"O controlo por voz na XO funciona mesmo e parece ser genuinamente útil. Deverá ser mais rápido do que usar o comando em certas funções, mas em termos ideias usarias ambos em sintonia."

O ecrã principal da Xbox One. A Microsoft mantém elementos da filosofia de design em redor da atual versão da dash 360, mas procura tornar toda a experiência mais elegante e simples.

No espaço de imprensa, Albert Penello enfrenta alguns desafios. A quantidade de ruído ambiental em fundo é imensa - a Gamescom dificilmente é comparável a condições numa sala de estar e ele precisa de falar alto e com clareza para o Kinect para passar a mensagem.

"Existe muito ruído aqui e alto de forma não natural portanto tenho que gritar para o Kinect," lamenta ele.

A integração com o teu sistema caseiro chega através de um simples procedimento, mas as instruções de Penello estão claramente a passar para a TV que preparou na sala de apresentação. E está tudo a acontecer sem qualquer tipo de amplificador IV visível na sala.

"Xbox silêncio. Xbox aumenta volume. Xbox baixa volume."

"Isto não passa por fios," diz o gestor de grupo das RP corporativas da Xbox, David Dennis. "É o Kinect a enviar os códigos de infra-vermelhos para a TV, a TV apanha-o e é a IU da TV a mudar."

A demo de áudio mostra as forças e fraquezas do controlo por voz ao trabalhar com o teu equipamento AV. Tirar ou ativar o som são funções on/off claramente adequadas à tecnologia. Ajustes no volume operam numa escala e precisam mesmo de contínuo pressionar de botões ou melhor, girar uma manivela - o controlo por voz não pode mesmo alcançar o mesmo efeito sem monótona repetição. Baixar o volume uma boa quantidade pode demorar muito, muito tempo.

Mas o que é impressionante é que cada comando por voz registado pelo Kinect é transmitido sem falhas para o kit relevante na sala. Funciona tão bem porque o Kinect em si é um IR blaster. A Microsoft melhorou o novo sensor Kinect com um transmissor de IR para ver o ambiente mesmo em condições escuríssimas. O contra disto é que a tecnologia funciona ao preencher toda a sala com luz de infra-vermelhos. Esqueçam as pequenas LEDs ligadas a fios que ficam à frente da tua caixa set-top; se é um IR blaster, a solução Kinect é efetivamente o equivalente a tornar-se nuclear. As ferramentas Kinect debug permitem-te ver o que o sensor IR vê - uma completa cobertura de infra-vermelhos de toda a sala. É difícil imaginar um cenário no qual esta forma de transmissão de IR não funcionaria.

A interface principal e a personalização do Kinect

Penello está agora a demonstrar a interface de utilizador principal, e destaca a autenticidade da apresentação, rugas e tudo.

"Estamos a correr em kits reas, equipamento real - são caixas quase finais. Não existe nenhum PC escondido seja onde for, não existem fios a ir para trás. Tudo que estou a mostrar está a correr nesta caixa aqui," diz ele.

"Esqueçam as pequenas LEDs ligadas a fios que ficam à frente da tua caixa set-top; se é um IR blaster, a solução Kinect é efetivamente o equivalente a tornar-se nuclear."

A visão do Kinect a infra-vermelho da sala. Notem na completa cobertura da sala. É desta forma que a transmissão de infra-vermelhos da XO funciona, cobrindo a sala com luz IR, assegurando praticamente que os códigos de transmissão chegam à TV, caixa set-top ou amplificador.

"O programa ainda é inicial. Não é programa de demo, este não é um programa que elaboramos apenas para o evento. É na verdade uma beta de programa que podem usar, é o que os nossos estúdios usam e o que os nossos testers internos estão a testar. São as boas notícias, as más notícias é que ainda é um programa em desenvolvimento o que significa que encontramos um soluço em cada demo - é código real."

Do que pudemos ver, a interface de utilizador tem estilo e perto da final - muito diferente da IU meia quebrada que vimos no artigo do Wired que acompanhou em simultâneo a revelação original da XO. Os únicos dados debug que vemos vem dos controlos por voz - as instruções processadas são apresentadas no canto superior direito juntamente com um número de zero a um. Os comandos de Penello recebem todos uma "avaliação" de 0.96 a 0.97 e depois dizem-nos que este é o tempo interno (em segundos) precisos para processar o comando por voz.

"Temos muita história na revisão da nossa dash na Xbox 360. Na XO, tentamos seguir com uma IU mais elegante e mais simplificada. Então este é o ecrã principal, o grande azulejo ali diz-me as aplicações mais recentes em jogos que estou a usar. À direita está a nossa loja, onde irás simplesmente navegar por jogos, filmes, música, aplicações," começa Penello, antes do ecrã subitamente mudar com novo conteúdo que chega aos azulejos.

"Acabou de iniciar a minha sessão. O Kinect pode mesmo ver-me e sabe que estou a falar e a ligar o sistema e essencialmente transferiu o meu perfil do Xbox Live e de imediato iniciou a minha sessão. E irás notar que tudo mudou. Está repleto com as aplicações mais recentes que usei."

Os dados de reconhecimento e os dados de perfil são duas coisas separadas. Tal como a Xbox 360 antes, existe ma sequência de calibração na qual o Kinect e a XO aprendem sobre ti do teu esqueleto e face. Isto é feito localmente. No entanto, os elementos de IU personalizados que povoam o ecrã estão guardados na nuvem, utilizados ao longo do Xbox Live. Podes até mesmo colocar "pinos" - ou favoritos, se preferires - que colas no ecrã principal para navegação mais rápida.

"Assim que inicias sessão na consola irá reconhecer-te e irá personalizar [a dash]. Se pensares na 360, e passares entre consolas Xbox diferentes tens que ter uma unidade de memória ou uma drive USB com todos os teus saves e tudo," diz Penello. "Tudo isso desaparece com a XO. Tudo que precisas saber é que o teu Xbox Live ID e todos os teus saves e definições te seguem para qualquer lado."

"A dash pode iniciar sessão para até seis jogadores registados pelo Kinect, os comandos por vozes apresentam dados específicos por perfil tais como lista de amigos, Conquistas de jogador e feeds sociais."

Jogos, aplicações, media - e mais. A capacidade de afixar conteúdos e ferramentas deverá permitir uma navegação mais fácil pelas tuas coisas favoritas na dash XO.

E tudo isto funciona com um número de utilizadores com sessão iniciada ao mesmo tempo no sistema. O próprio Kinect é capaz de registar de forma independente seis pessoas diferentes, e isto reflete-se na funcionalidade da dash.

Como o Kinect lida com comandos de voz de múltiplos utilizadores

"A outra coisa que tenho a certeza em que pensaste é a ideia de ter mais do que um utilizador na 360, o que na verdade é bem complicado. Talvez vocês tenham passado por situações em que colegas ou entes queridos que queriam jogar um jogo arruinaram os teus Achievements, limparam a tua pontuação," diz Penello. "É muito difícil alterar entre utilizadores. Na XO podemos mesmo ter até seis pessoas com sessão iniciada no sistema ao mesmo tempo e usando o Kinect podemos reconhecer-te, podemos agora saber que estás a falar e podemos oferecer uma experiência personalizada para essa pessoa."

A demo ainda não segue bem o plano - David Dennis fala com o Kinect enquanto Penello fala com a imprensa presente, portanto o sensor não tem a certeza de onde vem as ordens, e que dados processar. Aceder à secção de pessoas não funciona, então eles tentam algo diferente.

"Xbox vai para Achievements," comanda Penello.

"Xbox vai para Achievements," repete Dennis.

Ambos tem a sessão iniciada na dash da XO, e ambos são capazes de aceder aos seus dados individuais - sejam Conquistas, lista de amigos, seja o que for. Qualquer um poderia correr Forza 4 ou qualquer outro jogo via comando por vez e o sistema iria preparar os seus saves quando o título carregasse. Com a oferta digital, todos os jogos podem ser acedidos via voz assim como com o comando padrão. Com o regresso ao DRM por disco, o sistema não é tão simples com as compras físicas - ainda precisas de colocar o teu disco na drive.

Mas o que realmente nos impressiona na apresentação é a capacidade do Kinect distinguir entre os dois e apresentar conteúdo personalizado. Como funciona? Sabemos que o Kinect reconhece comandos por voz, mas certamente não pode distinguir vozes individuais. Acontece que outros dados do sensor são usados para determinar isso.

"Conhece os nossos esqueletos, conhece as nossas faces. O Kinect tem um microfone vetor. Pode ver a minha face, pode ver-me a fala, pode ouvir-me e como vê o meu esqueleto, pode isolar isolar que sou eu," explica Penello.

"Se entrasses num ecrã de desenvolvimento poderia mostrar-te dois esqueletos aqui. Iria mostrar Albert a falar. Iria mostrar-me aqui mas não a falar," diz Dennis.

"Existe outro pequeno truque aqui. Existe um emissor LED [no comando] que mostra quem está a controlar qual comando e que David está a segurar o comando dois e que eu tenho o comando um. Entre todas estas quatro coisas - quem está a falar, onde estão, e de onde vem o som e o comando - pode passar para a pessoa certa."

"Emissores IR nos novos comandos XO combinados com registo de esqueletos e introduções do microsoft de multi-vetores permitem ao SO reconhecer comandos de voz individuais e ajustar a experiência de acordo."

O visor do Kinect debug da Microsoft dá-te uma ideia da quantidade de dados que o sensor é capaz de registar da cena, incluindo expressões faciais, interação com o sistema e qual o comando XO que estás a usar e se mais do que um deles está ligado ao sistema.

"Xbox vai para Marble Maze."

Penello está a demonstrar como podes carregar um jogo simplesmente pedindo. Novamente, isto é para nós uma forma pela qual consegues fazer coisas muito mais rápido na XO. Com o controlo por voz poderíamos ter ligado todo o nosso sistema AV, e ter o nosso jogo de escolha a arrancar antes de nos sentarmos no sofá.

"Marble Maz parece um jogo AAA [para o sistema]. Portanto mesmo apesar de ser uma pequena demo que corremos, imaginem se for algo espantoso como Ryse ou Dead Rising. Isto é apenas algo que a equipa de desenvolvimento construiu para testar algumas das funcionalidades," explica Penello.

"Uma das coisas sobre as Conquistas por exemplo é que elas mostram às pessoas que completaste uma tarefa mas não te mostram como completaste a tarefa. A XO está sempre a guardar os últimos cinco minutos de qualquer gameplay a qualquer momento, portanto imagina que estás num jogo de luta, um shooter ou algo e conseguiste um truque espantoso e tens que contar às pessoas...tudo que tens que dizer é 'Xbox grava isso' e o que irá realmente fazer em fundo é pegar nos últimos 30 segundos do buffer e comprimir isso num vídeo que podes ver e partilhar com amigos."

Aplicações encaixadas e envio de vídeo

E ele faz mesmo isso, dando-nos no processo o primeiro olhar à qualidade do vídeo gravado consoante repete no ecrã. A demo de Marble Maze em si corre a 60fps, e é claro ver que a repetição está a 30fps, e existe um golpe na qualidade. Mas tendo em conta a qualidade das plataformas de oferta disponíveis, está claramente acima do YouTube. Será interessante ver se esse vídeo irá passar por outra codificação nos servidores ou se é usado o stream original da XO.

"Notem que ainda estou no jogo. Vou passar o clip, irá demorar um segundo a carregar. Depois posso levar o vídeo para o nosso editor, cortar, guardar e enviar. Depois volto ao jogo," diz Penello.

"Xbox vai para Marble Maze - e vêem que instantaneamente estou no jogo onde estava. Claro que é uma forma de gravar vídeo. Poderia fazê-lo manualmente...Xbox encaixa upload. Agora a aplicação de upload é encaixada ao lado do jogo. Estou ainda a jogar e posso ir e preparar uma sessão de gravação manual para até cinco minutos de gameplay, editando mais tarde."

"Ao fazer upload, significa que podes partilhar com amigos, aparece nos feeds e isso tudo," adiciona Dennis.

Com a aplicação de upload a operar lado a lado com Marble Maze, notamos que o ecrã de gameplay é espremido horizontalmente e desviado para a esquerda para acomodar a chegada da nova aplicação. Dizem-nos que os estúdios tem a opção de escolher o que acontece à apresentação - se espremem o ecrã horizontalmente como aqui ou se escolhem outra opção.

"Encaixilhar aplicações ao lado de gameplay, media ou outras aplicações funciona exatamente como publicitado sem impacto adverso na performance do qual possamos falar."

Um exemplo de uma aplicação - neste caso o Twitch - colado à gameplay. Aqui vemos que o framebuffer 1080p da gameplay é reduzido. No jogo de teste que vimos na Gamescom, a ação foi encolhida horizontalmente à esquerda para acomodar a aplicação de upload de vídeo. A Microsoft diz-nos que os estúdios podem escolher o que acontece ao ecrã quando uma aplicação encaixilhada é adicionada.

"Xbox desencaixilha."

Em seguida, alternar entre jogos. A Microsoft diz que carregar diferentes aplicações é instantâneo e do que vimos parece que não ocorre qualquer impacto na performance do jogo. É algo bem impressionante. Mas alternar entre jogos é diferente - a maioria da RAM do sistema é usada para jogos e não existe forma fácil de guardar em cache 5GB de dados, portanto aqui vemos tempos de carregamento.

"Xbox vai para Reflex."

É interessante existirem alguns segundos antes da XO processar o comando. Penello explica que é tempo suficiente para cancelar o comando, caso um parente inoportuno tente tirar-te do teu jogo usando comando por voz para carregar um novo. É provavelmente a melhor solução disponível para o problema, mas tem em conta cenários onde o controlo por voz pode ser usado com maldade. No entanto, Reflex expõe mais segredos Kinect que nos interessam genuinamente.

A demo Reflex: O Kinect e os first-person shooters

"Reflex é algo que fizemos para testar como poderíamos usar o sensor Kinect num FPS, portanto mais uma vez isto não é um jogo real, é apenas uma demo tecnológica, mas queríamos testar que sabemos quando as pessoas estão a jogar jogos elas movem-se, interagem - como podemos capturar esse movimento? E também o quão rápido e preciso o novo sensor é," explica Penello.

"Este é apenas um FPS genérico que criamos para testes. Podem notar que estou a ser atingido por coisas que nem vejo e quero ativar a minha visão raio x. se simplesmente tocar na minha cabeça eu agora posso ver todos os personagens escondidos no jogo e irás notar que aquele toque é tão rápido quanto o pressionar de um botão. A outra coisa é que - e não está super-otimizado nesta demo - mas eu posso até escolher coisas com as minhas mãos (que não é a parte que quero demonstrar agora) mas também uso a minha voz...Dispara mísseis...podes imaginar que posso ter outro botão com a minha voz para certas ações."

Passamos mais tempo do que queremos dizer a movimentar as nossas mãos à frente de câmaras de alta velocidade para medir a latência Kinect de uma ponta à outra. Apesar de ficarmos reticentes sobre qualquer comentário que o Kinect é tão rápido quanto pressionar um botão, não podemos negar que parece rápido. Na verdade, mais rápido que a demo Kinect Sports Rivals que jogamos no evento antes de chegar a esta apresentação.

"A demo Reflex FPS é algo muito impressionante - vemos uma resposta que é aparentemente mais rápida que qualquer outra experiência Kinect que tivemos."

eis como o novo sensor de profundidade do Kinect vê o mundo. A resolução de profundidade a 512x424 não é um grande salto sobre os 320x240 do original. No entanto, a Microsoft aclama que existe um alcance operacional de 0.8m a 4.2m, um campo de visão ótico horizontal de 70 graus, 20ms de latência para programas e 14ms de tempo total de exposição. A latência está melhorada e o Kinect é claramente mais capaz - registo completo de esqueleto enquanto sentado é agora possível.

"A última coisa é a capacidade de agachar e usar a minha energia cinética. Obviamente estou de pé agora mas esta demo funcionaria na mesma bem se estivesse sentado e na verdade sabe que estou a colocar o meu comando ao alto como um escudo ou que me quero agachar. Todas essas coisas podem acontecer ao mesmo tempo - e basicamente, instantaneamente," continua Penello.

Disparar mísseis introduz uma nova notificação do sistema Xbox - o "momento mágico". Os programadores podem-nas colocar no jogo e gravar automaticamente vídeo de gameplay que consideram importante e partilhável.

"Se existe um boss gigante e o estúdio sabe que o jogador terá que executar algo super-fixe para terminar, o jogo pode colocar um aviso para gravar automaticamente esse momento," explica Penello. "E é isso que acontece aqui - usar a minha voz para disparar mísseis é assinalado como um momento mágico e isso faz com que esse momento mágico seja gravado."

A Microsoft remodelou radicalmente o sistema de amigos do sistema de 100 espaços usado na Xbox 360. Tens uma lista de amigos expandida, favoritos, e a capacidade de seguir e ser seguido - ao estilo do Twitter (com a necessária funcionalidade de bloqueio, caso precises dela). Partilhar vídeo é uma parte importante disto, sugerindo um requisito enorme para largura de banda pelo sistema, o que pode explicar porque estas funcionalidades são exclusivas para subscritores Live Gold.

Aplicações Snap: capacidades e limitações

Mas o nosso foco é a tecnologia, e estamos impressionados com as funções das aplicações e a integração do Snap. A questão é, com funciona e quais são os seus limites?

"Falamos sobre o SO Xbox onde temos três SO diferentes a correr ao mesmo tempo. Temos uma camada muito pequena do sistema operativo que é apenas o código, temos o que chamamos de camada de aplicações para termos as aplicações a correr no SO independentes dos jogos," diz Penello.

"É por isso que podes fazer Snap e é por isso que posso alternar independentemente entre aplicações sem afetar a performance do jogo. O jogo recebe a vasta maioria dos recursos para a consola. O SO e aplicações correm numa parte totalmente diferente e não se afetam uma à outra. Dois jogos não podem correr em simultâneo porque ocupam a grande parte dos recursos. Então quando começo um novo jogo tenho que descarregar o anterior e carregar o novo, mas ainda posso ter até quatro aplicações a correr em fundo. Isso é alternar instantaneamente, como viram."

A dash parece ser residente em RAM mesmo durante gameplay, portanto podemos aplicar o snap na IU durante gameplay e ajustar as definições do sistema?

"A dash mais avança combinada com as quatro aplicações residentes na memória numa dada altura começa a explicar porque estão 3GB da RAM da XO reservados para o sistema."

As notificações do sistema foram redesenhadas para a XO, como podem ver no indicador 'pronto para jogar'. No entanto, no programa de teste, o som permanece idêntico ao da 360.

"Está a aplicar o snap às aplicações que estavam no sistema. Não podes fazer snap à IU," responde David Dennis. "Imagina o jogo Madden e a aplicação Madden a correr ao mesmo tempo. Ou pensa na Halo Waypoint como está agora. Como quando vais à Halo Waypoint e está a agregar tudo que fazes. Pensem na aplicação Halo Waypoint em snap enquanto estás a jogar o jogo. Está a atualizar os feeds. Existe uma aplicação e um jogo a operar ao mesmo tempo e a conversar um com a outro."

"Podes ter o Youtube numa janela enquanto jogas, podes ter o Netflix, ou podes ter o Youtube em snap com o Netflix," adiciona Penello, apontando que as aplicações podem ser executadas em snap com jogos - e outras aplicações.

Apesar de aplicar o snap à IU estar descartado, parece que tarefas para as quais possamos usar a dash podem ser alvo de snap em aplicações individuais.

"Podes 'Snap party' e isso irá mostrar-te o que as pessoas estão a jogar e depois podes juntar-te a eles nos jogos," diz Penello.

Após uma breve sessão de Q+A com a audiência, o espetáculo termina, mas ficamos depois para nos introduzirmos e perguntar mais algumas questões sobre a arquitetura Xbox One. É difícil evitar a sensação que estamos a falar com pessoas realmente entusiásticas que foram um pouco restringidas sobre a forma como podem falar sobre o seu produto - seja o silício XO ou a IU. Temos a sensação que isto está prestes a mudar, significativamente.

Também é interessante notar que a TV em direto apenas teve uma única, solitária menção na apresentação (quando um membro da imprensa notou uma Conquista de TV em direto no perfil de Albert Penello - que ele indicou não ter pontuação). Esta foi uma apresentação feita para uma audiência de jogadores, desenhada para realçar o quão útil a integração Kinect é mesmo se não és fã de jogos com movimento de corpo completo, enquanto ao mesmo templo explorou como a dash evoluiu para ser mais dinâmica, mais rica em media e - sim - mais social.

Apesar de ser difícil imaginar que o controlo por voz via Kinect triunfe exclusivamente sobre o comando, a noção de o usar combinado com o comando faz agora muito mais sentido. Independente do quão simplificada e elegante a nova dash XO é, irá haver muito para cobrir, e a capacidade de saltar isso através da voz não pode ser descartado. Similarmente, a ideia de lidar com múltiplos jogadores com sessão iniciada usando a funcionalidade Kinect parece ser mesmo fixe em teoria - tem alguns erros no seu estado atual, mas este é um programa beta e esperamos que isso seja resolvido.

Talvez a maioria lição da conferência seja a transformação da percepção geral da interface de utilizador e da sua relevância para os jogadores. A revelação Xbox One concentrou-se demasiado na TV em direto ao ponto dos jogadores dedicados se sentirem genuinamente excluídos. No final desta apresentação ficamos impressionados, querendo ver mais. Penello resumo tudo de forma sucinta, usando linguagem espantosamente similar à que temos ouvido de outras fontes perto da Microsoft desde a estreia inicial da Xbox One:

"É impossível falar sobre ela. Quando a vires, irás compreender."

Lê também