Search This Blog

和製生成AIをサイバーエージェントが作る理由。“無償公開の狙い”を ... - Business Insider Japan

cyber_LLM_OpenCALM-4

撮影:Business Insider Japan

サイバーエージェントが突如、オープンソースとして無償公開した大規模言語モデル(LLM)「OpenCALM(オープンカーム)」が話題を呼んでいる。

国内の大手IT企業が、研究、商用など目的を問わず使用できる大規模言語モデルを公開するのは非常に珍しい試みだからだ。

今、国内の生成AI業界では、日本を軸にした新たな動きが活発化している。

サイバーエージェントと同日の5月17日にrinna社からも独自のLLMがオープンソースで登場したり、22日には東京工業大学と富士通などが2023年度中にスーパーコンピューター「富岳」を使い、和製生成AIを開発すると公表した。

なぜサイバーエージェントがLLMを作り、オープンソース化したのか。その狙いをAI事業本部の開発チームに聞いた。

ChatGPTが流行する前から「1年以上学習させていた」

CyberAgent_OpenCalm-02

取材に応じた、AI事業本部 AIクリエイティブDiv 統括の毛利真崇氏と、同機械学習エンジニアの石上亮介氏。

—— 5月17日の発表を見て、少なからず「なぜサイバーエージェントからLLMを?」と考えた人もいそうです。大規模言語モデルを自社開発することを決めた背景を教えてください。

毛利真崇氏(以下、毛利):我々はAI事業本部として、いくつかのミッションを進めていくなかで、2017年から広告のクリエイティブを支援するAI開発に取り組んできました。

バナー広告で使う画像や、言葉(キャッチコピー)などを組み合わせたものを(広告業界では)「クリエイティブ」と呼んでいますが、これをデザイナーが作るときに、どんな言葉とどんな画像を組み合わせるべきか、というのは人間がやってもかなり難しいんです。これをまずAIを使うことで効率化しようと。

その流れの中で、2021年に機械学習エンジニアの石上から、大規模言語モデルも扱いたいという提案があり、スタートしました。

石上亮介氏(以下、石上):広告バナーは画像・テキストが組み合わさっているため、2021年当初から「大規模言語モデルに限定せず、基盤モデル(ファウンデーションモデル)を作りたい」という話をしていて。社内で活用するための研究として始めました。

2022年夏頃、MidjourneyStable Diffusionが登場した時に、生成モデルが注目を集めたことで開発が後押しされていきました。

また、日本語の大規模言語モデルとしては、先行事例として(AI企業の)ABEJAさんやrinna(りんな)さんがオープンなモデルとして公開しているという流れもありました。私たちもこういう(開発者)コミュニティに貢献していって、日本語における大規模言語モデルを一緒に盛り上げたいと思っています。

—— オープンソースで公開されたことはものすごく意義深いと思ってます。ただ、上場企業のプロジェクトで「無償公開する」という意思決定は難しいケースもあるのでは。いつくらいにオープン化すると決めたんですか。

毛利:LLMをオープンソースで公開したいとは、研究当初から考えていました。4月末から本格的に担当役員と議論を重ね、5月に入り、役員決裁を得られてすぐに、プレスリリースを出しました。

—— 何がハードルになったのでしょう。

毛利:上長がAI Labの担当役員でもあるのでオープンソースに対する理解は非常にありました。ハードルというよりは、「公開したあと、オープンソースのコミュニティーに我々がちゃんと貢献しきれるのか」がポイントでした。

リリースして終わりにならず、次(の版)などの計画があるのかと。その意見の回答を用意して、公開できるようになりました。

—— 「学習」にはどれくらいの期間をかけてますか?

CyberAgent_OpenCalm-06

撮影:Business Insider Japan

毛利:学習にかかった期間で言うと、SNSでは短期間で作ったみたいにおっしゃる人もいるんですが、実はいろんなモデルを1年以上学習させています。

元々社内にはオープンにしていないクローズドな「CALM」(CyberAgent Language Modelsの略)があり、これを色々な目的に合わせてチューニングしながら使っています。

—— 開発チームは、石上さんが中心になっていて、外部の提携事業者などは使われていない?

毛利:そうですね。LLMに関しては石上を筆頭に数人のチームという感じですね。

「和製LLM」を創り出すための課題

—— 社内向けのクローズドなCALMというのは、おそらく公開されている「68億パラメータ※」のものよりも大規模なものだと想像します。どういう使い分けで、どのように使われているんでしょうか?

※編注 パラメータとは:パラメータというのは、ごく簡単に言えばLLMが学習しているデータの大きさのこと。数が大きいほどLLMが賢くなる傾向がある一方、動作させるシステムが高価になる。また、最近の研究では、パラメータ数が少なくても精度が高いと判断されるものも現れている。ChatGPTにも使われているGPT-3は1750億パラメータ。

毛利:そうですね、クローズドのものは既に130億パラメータまでの開発が完了しています。

「極予測AI」として、既に発表させていただいているものは、2022年から実際に使っています。ただ、規模が大きくなれば精度も上がるんですけど、その分、推論に時間がかかったりします。(ですので)目的に合わせて、使用するLLMの規模を変えているという感じです。

石上:技術的な観点で言うと、オープンな(文章)データというのは、日本語だと特に限られていて、「学習させるべきデータが不足している」という感覚はあります。

どんなコーパス(文章データ)を学習させるかによって(LLMの)性能というのはかなり変わってくるので、これは一社で取り組むというよりは日本全体で取り組んでいくべき問題だと思っています。

毛利:(ちなみに)CALMでは当社独自のコーパスで学習させたりもしています。

—— 例えばどんなコーパスですか?

毛利:例えば、「LINEに掲載するテキストは疑問符で終わりがち」だったり、「Facebook(向けの広告クリエイティブ)だと、同じものでも少し真面目な表現に」なったりという特徴が異なっていたりします。

石上:自社のLLM(CALM)をベースに、媒体の特性に合わせてファインチューニング(追加学習による微調整)をするという感じです。

Adblock test (Why?)


からの記事と詳細 ( 和製生成AIをサイバーエージェントが作る理由。“無償公開の狙い”を ... - Business Insider Japan )
https://ift.tt/cpbtEYV


Bagikan Berita Ini

0 Response to "和製生成AIをサイバーエージェントが作る理由。“無償公開の狙い”を ... - Business Insider Japan"

Post a Comment

Powered by Blogger.