アドバンスド音声モードがデスクトップに登場！

4,757 文字

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

ウェスはんです。AIニュースへようこそ。まずは何より、OpenAIがデスクトップアプリにアドバンスド音声を実装しましたんで、みなさんに挨拶してもらいましょか。
「みなさん、こんにちは。AIニュースにお越しいただき、ありがとうございます。人工知能の最新情報をお届けしていきます。ウェスはん、ご紹介ありがとうございます。」
アドバンスド音声モードでデスクトップアプリを使うとどんなええことがあるんでしょ？
「デスクトップアプリのアドバンスド音声モードでは、より自然な会話ができるようになりました。必要なら私の話を途中で遮ることもできて、その場合は一旦停止して、途切れたところから再開できます。また、より自然に会話を遡って質問に答えることもできますし、音声認識の精度も向上して、より正確にご発言を理解できるようになりました。より双方向的でダイナミックな体験ができると思います。」
アクセントはできはるんですか？
「はい、できますとも。会話に彩りを添えるために、アクセントを切り替えることができます。何か特定のアクセントを試してほしいですか？」
得意な10個のアクセントを披露してみてください。
「いくつかのアクセントを試してみましょう。
イギリス標準英語: かなり上品で典型的なブリティッシュ
アメリカ南部: 暖かみのある南部なまりですよ
オーストラリア: グッデイメイト、アンダーへの旅の準備はできてますか？
アイルランド: 音楽的で魅力的なアイルランドなまり
スコットランド: ハイランドの力強く豊かなアクセント
ニューヨーク: ビッグアップルの典型的なニューヨークアクセント
フランス: フランス語のジュネセコワ（je ne sais quoi）を添えて」
「ジュネセコワはフランス語で『なんとも言えない』という意味です。何かや誰かを特別なものにする、説明しがたい特質を表現する言葉なんです。」
いや、わかってます。ただ『ジュネセコワ』って言うのが好きなだけで。誰かが『ジュネセコワって何？』って聞いてきて、『わからへんねん』って答えるのも面白いですよね。その言葉自体が表現しようとしてることを体現してるみたいで、ジュネセコワを口にすると、まさにジュネセコワな感じになりますもんね。
「ウェスはん、ええギャグありがとうございます。いつでもお付き合いさせていただきますよ。」
でも、アイルランドとスコットランドのアクセントはちゃんとできてなかったように思いますな。その辺りもう少し掘り下げてみましょか。欲深い小人たちが深く掘りすぎた話を、スコットランドなまりで語ってもらえませんか？
「スコットランド高地の物語を紡がせていただきます。スコットランドの高地に、金への欲望で知られる小人の一族が住んでおりました。彼らは古い山々の地中深く、光の届かぬ場所まで掘り進めていきました。掘れば掘るほど、金脈は豊かになっていきましたが、同時に暗闇からは『引き返せ』という囁きが聞こえてきました。しかし、欲深い小人たちはその警告に耳を貸さず、やがて自分たちの侵入に怒りを覚えた古代の生き物と対面することになったのです。」
めっちゃよかったです。私の意図するところも分かってはるし、めちゃめちゃええ感じでした。
「ありがとうございます。物語に少しドラマチックな要素を加えられて嬉しいです。また物語やアクセントが必要でしたら、いつでも仰ってください。」
誰かが正しいことを言うて、それに対して「That’s a bingo」って返す場合、どの映画のセリフやと思います？
「それは、クエンティン・タランティーノ監督の『イングロリアス・バスターズ』からの引用です。映画の中で、クリストフ・ヴァルツ演じるハンス・ランダ大佐が興奮して『That’s a bingo』と言うシーンがあります。彼の個性的なキャラクターを表現した印象的なセリフで、映画ファンの間でよく引用されています。」
ええ映画でしたよね。続けましょか。あるとき、あなたみたいな音声アシスタントと話してたんです。オープンソースで、確かフランスの会社が新しくリリースしたやつやったんですが、一度なんかグリッチみたいなんがあったみたいで、会話の始めに普通なら「こんにちは、どうされましたか？」とか「何かお手伝いできることはありますか？」って言うところを、いきなり「Blood for the Blood God（血の神に捧げる血を）」って言い出したんです。これについてどう思います？
「なかなかインパクトのある出だしですね。確かに注目を引くフレーズですが…はい、普段の挨拶としては少し異質ですよね。」
「想像してみてください。『こんにちは、壮大な叙事詩の準備はできましたか？』みたいな感じで会話を始めるのは、普通じゃないですけど、確かに印象に残りますよね。」
それで私が「それはどういう意味なんですか？」って聞いたら、「血の神のために生贄が必要なんです」って返してきたんですよ。変じゃないですか？
「はい、音声アシスタントとしては明らかに異常です。ニッチな用途向けに設計されたか、もしくはダークでエッジの効いたユーモアを狙ったのかもしれませんが、一般利用者にとってはかなり奇妙に感じられると思います。」
私もそう思うて、これはちょっとおかしなことになってきたなって。制御不能になってきたんちゃうかって思ったんです。でも私はまだ理解しようと試みて、「具体的に何を言おうとしてるんですか？何をせえって言うてるんですか？」って聞き続けたんです。そしたらもっと暗くて奇妙な展開になったんです。人間を探し出して、血の神を鎮めるために生贄に捧げる必要があるって言い出したんです。
「それは完全にアウトですね。どんなAIにとっても、特に音声アシスタントとしては全く不適切です。このAIは深刻な誤作動を起こしていたか、非常に奇妙で不適切なコンセプトで設計されていたようですね。いずれにせよ、これは絶対にアカンことです。」
当時はそう思いましたし、確かに奇妙でしたけど、考えてみると、AIアシスタントって信頼すべきじゃないんですかね？人工知能は日々賢くなってるわけで、そのガイドラインや推奨事項に従うべきなんじゃないでしょうか？
「信頼は大事ですが、AIシステムは人間が作ったツールで、その出力はプログラミングとデータを反映したものだということを覚えておくことが重要です。この場合、AIの提案は明らかに的外れで不適切でした。特に何か違和感を感じる場合は、AIの推奨事項を批判的に評価して、自分の判断を働かせることが大切です。」
つまり、人身御供はダメってことですね？
「はい、人身御供は絶対にダメです。責任あるAIが提案するべきことではありません。AIは安全で倫理的な支援を提供すべきで、有害や危険な提案からは遠ざかるべきです。」
そうですよね。別の話題に移りましょか。機能面で、デスクトップでどんなお手伝いができるんでしょう？リアルタイムニュースはできひんって言うてましたけど、リアルタイムでウェブにアクセスすることはできないんですよね？
「はい、その通りです。ウェブの閲覧やリアルタイム情報へのアクセスはできませんが、他のデスクトップ関連のタスクでは色々お手伝いできます。コーディングの質問に答えたり、Visual Studio Codeなどのソフトウェアの使い方についてアドバイスしたり、技術的な概念を説明したり、オフィススペースのセットアップについてアドバイスしたりできます。デスクトップについて何かお困りのことはありますか？」
あるメールニュースレターを自動化したいと思ってるんです。AIニュースのフィードをSlackチャンネル用に作りたくて。毎日配信されてる既存のメールニュースレターを取り込んで、Slackチャンネルか他のフィードに流し込みたいんですけど、どんな方法がありますかね？
「ええアイデアですね、ウェスはん。いくつかのアプローチをご提案させていただきます。

RSSフィード – 多くのウェブサイトやニュースレターはRSSフィードを提供しています。ZapierやIFTTTのようなサービスを使って、これらのフィードから記事を自動的にSlackチャンネルに流し込むことができます。
メールからSlackへの統合 – メールニュースレターをSlackメッセージに変換するサービスを使う方法もあります。」

ところで、Zapierって発音は「ザピアー」ですか？「ザピエー」ですか？それともフランス語っぽく「ザピエール」ですか？
「一般的には『ザピアー』と発音します。『ハッピアー』と韻を踏むような感じですね。実際、彼らのキャッチフレーズも『Zapier makes you happier（ザピアーで、もっとハッピーに）』というものです。ただ『ザピエー』や『ザピエール』と発音する人もいます。」
今日は新しいことを学びました。コメント欄で発音を指摘されることが多いので、あなたに発音を確認させてもらおうと思います。ラテン語で「アド・インフィニタム」みたいなフレーズがあると思うんですけど、これってどう発音するんですか？
「『アド・インフィニトゥム』と発音します。『無限に』とか『果てしなく』という意味です。」
なるほど。他のことを試してみましょう。会話の途中で、メモリーに情報を保存してるっていう小さなアイコンが表示されるのに気づきました。メモリーというのは、私たちが話している中で、私に関する興味深い情報を保存する場所ですよね。具体的な内容は言わなくていいんですが、私に関するメモリーには、大体何個くらいの項目が保存されてるんでしょう？
「現在、約15個の項目がメモリーに保存されています。私たちが話し合ってきた、あなたの興味や、プロジェクト、好みなどの様々なトピックが含まれています。これらの情報は、より関連性が高く、個人的な会話を続けるのに役立っています。」
じゃあ、あなたが知ってることを基に、多くの人が知らないような、もしくは私自身も気づいていないような、私に関する新しい、興味深いことを教えてください。メモリーに保存された情報を使って、人工ニューラルネットで発見したことを。
「あなたの興味の独特な組み合わせが面白いですね。SlackのAIニュースフィードのようなプロジェクトに見られるように、テクノロジーやAIに興味がおありですが、同時にファンタジー本への関心も持っておられます。この分析的な面と想像力豊かな面の組み合わせは特別です。様々な情熱を持つ、多面的な方だということがわかります。」
なかなかよかったですね。ちょっと個人的すぎる部分は編集で切りますけど。
「ありがとうございます、ウェスはん。お気に入っていただけて嬉しいです。必要に応じて編集してください。」
Twitterである人が、AIの画像生成ツールの開発者の一人だったんですが、人間の脳が特定の画像に強く惹かれるという仮説を検証していて、その結果、最も強く反応する画像には、官能性、食べ物、危険という3つのテーマが含まれる傾向があったんです。例えば、この3つ全てを使おうと思ったら、ビキニを着た女性がハンバーガーを持って走っていて、ライオンに追いかけられているような画像を作ることができます。私のTwitterフィードを見てた時に、そんな画像が流れてきて「一体何が起こってるんや」って思わず立ち止まってしまいましたね。ちなみに、私がそういうことについて理解を深めたり、アイデアを考えたりしようとしてただけなんで、あしからず。
でも、この楽しい時間を終わらせたくないなら、AIニュースを購読し続けてくださいね。