C部長 : “これ(↓)、一応は日本語なんだけど・・・。Dollyって、もともとは英語のコーパスじゃないの?”
QEU:FOUNDER : “とある奇特な方が「ディープL」を使って日本語化したんです。そこら辺の話はあとにしましょう。今回、話をしたいのはコレ(↓)!!”
C部長 : “とうとう天下のMS様も低パラメタかつ高品質データセットのモデルをリリースしましたね。考えてみれば、高品質のデータセットができればパラメタが少なくとも良い結果がでるのは当たり前のことなんだが・・・。”
QEU:FOUNDER : “噂によると、GPT-4のパラメタ数は1兆を超えるらしいね。そして、このPhi-1モデルはたった13億・・・。GPTって、統計のいうところの「大数の法則」でよいパフォーマンスが出ているが、実際には無駄が多いんでしょうね。そのムダが「ハルシネーション(幻覚)」となって表れているという・・・。ちょっと、話題を変えてDollyデータセット(ja版)のお粗末な中身を見てみましょう。要するに、一言でいえば「QAになっていない」んだよね・・・。”
D先生 : “ははは・・・。Qが「城島」でAが「キャッスルアイランド」・・・。”
QEU:FOUNDER : “QA別々にディープL翻訳をしているので、翻訳にズレが発生しているんです。こんなエラーは山ほどあります。これを修正しないと、まともに使えるデータセットになりません。”
D先生 : “すんません。J語がダメダメで・・・(笑)。”
QEU:FOUNDER : “そうでもないよ。このDolly データセットはうたい文句こそ「高品質」と言っているが、ひとつひとつ見てみるとかなりひどい出来です。その理由は、そのデータセットが作られた経緯にあります。従業員1500人にQAを作ってもらって、それを取りまとめて15kにしたんだよね。それが、データの偏りに出て来ています。この会社の社員さんはゲームがとてもお好きなようです(笑)。ついでに最高のサッカー選手の質問が数回でてきます。”
D先生 : “データセットを作った人も、話題を規定させずに皆に自由に質問回答(QA)させたでしょうし・・・。また、社員の中にはLLMを知り尽くしている人もいるし、そうでない人もいるしね。”
QEU:FOUNDER : “こまかく見ると実はQAになっていない文章が「山ほど」あるよ。原版の英語でもね・・・。まあ、ここら辺をどのように直したのかは別途やりましょう。例によって、いろいろ発見もあるんです。例えば、こんな具合に、面白いQAを作ってくれる人もいます。”
{
"index":"3987",
"instruction":"CAC40はどのように選ばれるのですか?",
"input":"CAC40指数の構成は、独立した指数運営委員会(フランス語:Conseil Scientifique)によって四半期ごとに見直されます。変更があった場合は、見直し会議から最低2週間後に実施されます。各審査日において、ユーロネクスト・パリに上場している企業は、自由浮動株時価総額と過去12ヶ月間の株式売買高に応じてランキングされる。このランキングの上位100社から40社が選ばれ、「ポートフォリオ管理のための関連ベンチマーク」、「デリバティブ商品の適切な原資産」として、CAC40に採用される。取引所で取引されている株式が複数ある場合、その中で最も活発に取引されている株式のみが指数に採用されます(一般的には普通株式となります)。",
"output":"CAC40は、ユーロネクスト・パリに上場する企業のうち、上位100社をベンチマークとし、Conseil Scientifiqueが選定しています。一定期間の株価の加重平均といくつかの指標を考慮し、その中で最も活発に取引されているものだけが指数に採用されます。",
"category":"summarization"
},
D先生 : “各国の株式指数の計算手法の件ですね。面白い・・・。計算時の重みって、時価総額が基準なのかな?それとも、株式売買高が基準なのかな?市場としてのあるべき姿は、株式売買額を使うべきだと思うけど・・・。”
QEU:FOUNDER : “じゃあ、J国の重みについて質問してみましょう。”
{
"index":"3987A",
"instruction":"日経株価平均はどのように選ばれるのですか?",
"input":"",
"output":"日経株価平均は、東京証券取引所(東証)が上場する全銘柄から、時価総額の大きい225銘柄を選定し、その株価の平均値を算出することで構成されます。ただし、選定される銘柄にはいくつかの条件があり、例えば、東証第一部に上場していること、信用取引の対象となっていること、などが挙げられます。また、一定期間にわたって条件を満たさなくなった場合は、リストから除外されることもあります。日経株価平均は、日本の代表的な株価指数の1つであり、日本の経済情勢を示す重要な指標となっています。",
"category":"open_qa"
},
{
"index":"3987B",
"instruction":"日経株価平均の企業ごとの重みはどのように設定されるのですか?",
"input":"",
"output":"日経株価平均の企業ごとの重みは、その企業の時価総額が全体の時価総額に占める割合を基準に設定されます。つまり、時価総額が大きい企業ほど、日経株価平均におけるウェイトが大きくなります。ただし、日経株価平均は株価指数であるため、株式分割や株式併合などのイベントが発生した場合は、重みの再調整が行われます。また、日経株価平均における企業の重みは、日々の株価変動によっても変化するため、常に最新の情報を反映しています。",
"category":"open_qa"
},
D先生 : “えっ!?時価総額なの?そんな定義をすると、株式指数が時間と共に上がってくるのは当たり前じゃないですか・・・。”
QEU:FOUNDER : “理屈はそうだよね。じゃあ、他の国がどうなのかを調べてみましょう”
D先生 : “他の国でも同じく「株式時価総額」を使っていますね。よかった・・・。同じで・・・。”
QEU:FOUNDER : “同じかい?J国の定義には「フリーフロート」という言葉がないでしょ?”
D先生 : “「フリーフロート」って、なんだろう・・・。”
QEU:FOUNDER : “「フリーフロート」の定義を理解するには、「フリーフロートでない」場合を理解したほうがよさげですね。それでは、調査の結果をドン!!”
QEU:FOUNDER : “つまり、フリーフロートとは大株主様のもつ株以外を示しているようです。”
D先生 : “ここら辺が違いになるかな・・・。J国で大株主ってだれだろう・・・。”
QEU:FOUNDER : “〇銀・・・。”
D先生 : “株式指数を操作するのは、らくちんらくちん・・・(笑)。ここで注意をしますが、AIに質問をしたのでハルシネーションの可能性があります。”
QEU:FOUNDER : “なんか、世の中、すごいこと(↓)になっているようですね・・・。”
C部長 : “「サンクチュアリ(聖域)」か・・・。議論の文脈でいうと、「昭和(という幻想)」という意味かな・・・。”
QEU:FOUNDER : “そうねえ・・・。いまだに「昭和」をいきている人もいるんだよね。”
C部長 : “自分が自分の世界の中で昭和が完結しているだけならば問題ないのだが・・・。他人に迷惑をかけないでほしい。”
QEU:FOUNDER : “平成で起こったことの本質ですね。令和で、それが完全にアウトに・・・。”