2020年11月18日公開

ビッグデータとは何かを知れば、最先端技術の未来がみえてくる!

「ビッグデータで世界が変わる!」

 

大げさだなと思いますか?

 

そもそも

「ビッグデータって何」
「ビッグデータといわれても自分の生活とは関係ない」

 

と思っていませんか?実はビッグデータは私たちの生活、企業や政府の活動のデータを蓄積したものなんです。ビッグデータは、爆発的に増加しています。

 

その理由は、IT環境の整備やSNSの発達、コンピューターのモバイル化やIoTによるものです。この記事ではビッグデータの基本から下記6点をまとめました。

 

・ビッグデータについて
・ビッグデータの特徴
・ビッグデータの活用方法
・ビッグデータの未来
・ビッグデータ活用の課題
・ビッグデータ活用例

ビッグデータを活用できれば、今までになかった視点から物事を俯瞰(ふかん)できます。また、新たなビジネスチャンスの拡大にもつながりますので、よかったら参考にしてください。

 

ビッグデータとは?

ビッグデータとは何か、言葉の意味・基本・その成り立ちをみていきましょう。

 

ビッグデータの概要

ビッグデータとは、大量のデータを表す用語です。

 

従来の方法では、処理が困難なほど巨大で複雑なデータの集合体です。それに加えて、データを格納・処理・分析するシステムを指します。

 

総務省の平成29年版情報通信白書では、ビッグデータについて次のように示しています。

 

「デジタル化の更なる進展やネットワークの高度化、またスマートフォンやセンサー等IoT関連機器の小型化・低コスト化によるIoTの進展により、スマートフォン等を通じた位置情報や行動履歴、インターネットやテレビでの視聴・消費行動等に関する情報、また小型化したセンサー等から得られる膨大なデータ」

引用元:総務省『平成29年版情報通信白書』

 

ビッグデータには大きく分けると構造化データ・非構造化データがあります。

 

IT環境が整備されて、ビッグデータは膨張し続けています。

 

ビッグデータの歴史

分析・活用する目的で大量の情報を収集・保管するという取り組みには、長い歴史があります。

 

 

このように複合的なITの進化によって、ビッグデータはますます膨張し、ビッグデータの活用は重要視されています。

 

ビッグデータの特徴

ビッグデータの概念を定義したダグ・レイニー氏は、ビッグデータの特性を下記の4項目で定義しています。

 

 

以下で詳しくみてみましょう。

 

Volume どれくらいの容量か

ビッグデータのVolume(容量)は考えられないくらい膨大な量を表しています。

 

2020年の世界で活用される総データ量は59ZB(ゼタバイト)です。ちなみに、1ゼタバイトでDVDで2500億枚です。

 

今後3年間で作成されるデータ量は、過去30年間で作成されたデータ量を上回り、世界では今後5年間で過去5年間の3倍以上のデータが作成されると試算されています。

 

参考元:IDC『IDCのグローバルDataSphere予測は、データの作成と消費において継続的な着実な成長を示しています』

ビッグデータは、人が想像できないくらい膨大なデータ量を示しています。

 

Variety どんな種類があるか

ビッグデータのVariety(種類)は、生成されるすべての構造化されたデータと非構造化されたデータを指します。

 

列と行で分類できる一般的な構造化データとテキスト・メール・音声・動画・位置情報・センサー情報など、その形は一定ではない非構造データがあります。それぞれが組み合わさってデータは構成されるためとても複雑です。

 

非構造データの分析は困難ですが、アメリカのハイテクを代表するGoogle・Facebookの動向をみると、特に分析に向かない非構造化データの活用に積極的です。

 

Velocity データの作成スピードはどれくらいか

ビッグデータのVelocity(スピード)とは、データの作成される速度を示しています。

 

世界のFacebookのユーザー数は約27億人です。

Facebookでは60秒ごとに60万件のコメントが投稿されています。400万件の投稿が「いいね!」され、13万6000枚の写真がアップロードされています。

 

参考元:simplilearn『Facebookがビッグデータをどのように使用しているか?』

 

ツイッターでは全世界で1秒に1回、平均で約6,000ツイート発信されています。1分間に35万件・毎日5億のツイートが発信されてます。

 

参考元:デビッドセイス『2020年の1日あたりのツイート数』

 

このデータ増殖の速さを、ビッグデータの特徴の1つとしています。

 

Veracity データの正しさ

ビッグデータの定義に新たに加わったのが、Veracity(確証性)です。

 

データの確証性とは、データの質だけではなく、データのソース、タイプ、データの寿命、処理がどれだけ適切で信頼できるかということです。ビッグデータはその特徴として量が膨大であるためにノイズが多く、重複した部分もあります。

 

ビッグデータの分析結果は、分析されているデータと同じくらいの価値があります。正しい分析結果を導くためにデータの正しさが重要です。

 

ビッグデータの中身

さまざまな場面で生成されるビッグデータの内容を具体的に見てみましょう。

 

マルチメディアデータ

2つ以上の情報をひとまとめにして扱うメディアのことを、マルチメディアデータといいます。

例えば、WEBサイトはテキスト・色彩・画像・音声などのデータを組み合わせて作成されています。こうして組み立てられたデータをマルチメディアデータといいます。

 

センサーデータ

センサーデータとは、モノやデバイスに取り付けられたセンサーから集めたデータのことです。

例えばスマートウォッチに内蔵される心拍センサーや加速度センサーから集めたデータのことです。モノに取り付けたセンサーはIoTのことです。

 

Webサイトデータ

Webサイトに訪れた日時や流入経路・滞在時間・アクション・訪問回数などWebサイトにアクセスして起こした行動をデータ化したものをWebサイトデータといいます。

 

ソーシャルメディアデータ

InstagramやFacebook・Twitterなどの投稿・動画・「いいね」などのリアクションのことです。例えば、Twitterでは毎日5億のツイートが発信されてます。SNSはビッグデータが爆発的に増大した要因の1つです。

 

オフィスデータ

オフィスで働く人の活動データのことです。従業員がどのように施設を使用しているかを把握してニーズにあったオフィスづくり(例えば快適な温度調整・必要な設備投資など)に役立てます。

 

カスタマーデータ

カスタマーデータとは、オンラインショップなどのウェブサイト・モバイルアプリ・アンケート・ソーシャルメディアをとおして、企業やマーケティング会社が収集した住所・氏名・年齢、サイト内行動・購入履歴といった顧客情報のことです。

 

オペレーションデータ

オペレーションデータとは、企業活動の中で出てくるデータのことです。具体的には、見積・受注管理・売上・仕入れ 発注などで生成されるデータのことをいいます。

 

ログデータ

コンピューターが行った行動を記録したデータのことです。具体的には、Webサーバー上で自動生成されるアクセスログなどがあります。

 

ビッグデータの4つの分類

総務省では平成29年版情報通信白書の中で、データを生成するものを次の4つに分類しています。

 

・国(政府)・自治体が生成するオープンデータ
・企業活動のログデータ
・産業データ
・パーソナルデータ

引用元:総務省『平成29年版情報通信白書』

それぞれを見てみましょう。

 

オープンデータ

オープンデータは、国(政府)・自治体 が収集したデータの中で一般に公開されたデータのことです。人口分布や気候・エネルギー・医療・観光などのデータです。

 

これらを公開する目的は、あらかじめ公開することで問合せを減らすことと、データを活用して新たなビジネスのきっかけとするためです。

 

参考元:DATEGO.JP

企業活動のログデータ

企業のノウハウをデジタルデータ化したものです。知のデジタル化ともいいます。

 

例えば「獺祭」という日本酒を造る旭酒造では、杜氏(とうじ)に頼らず酒造りの過程をすべてデータ化して良質な日本酒を作っています。

 

参考元:日本経済新聞『最高の酒に杜氏はいらない 「獺祭」支えるITの技』

 

こうした企業のノウハウをデータ化したものを知のデジタル化といいます。

 

産業データ

企業活動の中で生成されるデータです。製造業の工場・産業用ロボット・医療・遺伝子研究などの製造・開発の現場から生成されます。

 

パーソナルデータ

パーソナルデータとは、個人を識別できない個人に関するデータです。個人の属性情報、移動・行動・購買履歴、ウェアラブル機器から収集されます。

 

例えば、鉄道 ICカード「Suica」で収集される位置情報です。「誰が」は区別されず「駅の改札を通った」というデータのことを示します。

 

ビッグデータの活用方法

ビッグデータは、データを処理・分析する過程及び、分析から何を生み出すかが重要です。ここではビッグデータの活用の流れを見ていきましょう。

 

ビッグデータを収集

IT環境が整備され個人がインターネットにつながるようになって、作成されるデータは膨大になっています。

 

・政府や地方自治体の出すオープンデータを活用
・データ収集プロバイダーを使う(データを購入する)
・IoT機器のセンサーデータを使う
・収集したカスタマーデータやパーソナルデータ

これらを組み合わせてデータベースを作成します。集めたデータはクラウドを使って管理すれば一元化管理できます。空の本棚にどんどん本を入れていくイメージです。

 

ビッグデータを分析

ビッグデータは、整理してから分析します。収集したデータの整理方法は下記の通りです。

 

 

必要な本がどこにあるか分かりやすい状態に、本棚を整理整頓するのをイメージしすると分かりやすいでしょう。ビッグデータの分析方法は、下記の通りです。

 

 

こうした手法を用いて整理したビッグデータを分析します。また現代ではディープラーニングを搭載した人工知能(AI)を用いてビッグデータの分析を行っています。

 

ビッグデータの活用

導き出したデータを活用する方法として4つあります。

 

・データベースにする
・データを可視化
・データ予測
・データを活用した自動化

 

こうして集めたデータの量が多く質が高ければ、よりよい経営判断が行えます。

 

ビッグデータの未来

IT環境の整備やICT・IoTの進化によって集積されたビッグデータで、新たな価値やサービスを生み出しています。

 

また、ディープラーニングが搭載されたことによって人工知能(AI)でビッグデータを分析できるようになりました。その他にロボット技術が向上して複雑な作業ができるようになっています。こうした産業技術が連携しながら進歩することによって、第4次産業革命が興っています。

 

第4次産業革命では、

 

・大量生産から個々にカスタマイズされた生産体制へ移行
・無駄のない限られた資源の利用
・人工知能(AI)・ロボットによる労働の補助

 

こうした産業構造の変化がおこり、その結果として、

 

・企業は効率的に製品やサービス提供できる
・消費者はより自分好みの製品やサービスを安価で享受できる

 

上記のような、超スマート社会「Society 5.0」が実現します。

 

参考元:内閣府『Society 5.0』

ビッグデータの活用例

ビッグデータを積極的に使用しサービスに活かす具体例をみてみましょう。

 

利用状況を収集する鉄道網

毎日運行する列車の運行状況・それを利用する客の動向のデータはビッグデータです。

 

近年の列車はコンピューター制御になっています。列車が信号やポイントを制御して時刻表の時間に合わせて列車を運行しているので、駅の到着時間やスピードなどの運行実績のデータを蓄積できます。

 

また、客が利用している交通系ICカードによって鉄道・駅の利用状況をデータ化も可能です。こうして集まったビッグデータを活用することで、遅れの少ないダイヤの作成が実現しています。

 

このように可視化したデータを分析することで、遅れの原因を明らかにして対策を考えるヒントとなっています。

 

来園者に応じて柔軟に対応するディズニーランド

ディズニーランドは公式アプリをとおして、パーソナルデータ・位置情報データなどのビッグデータを収集しています。

 

ディズニーランドの公式アプリは事前に会員登録しておくと、チケット購入・入園・待ち時間チェック・スタンバイパス・ファストパス取得・ショッピング・ディズニーホテルのチェックインが可能です。また、ディズニーホテルのルームキーにもなります。

 

ディズニーランドは、公式アプリを持った顧客の行動をデータ化・分析してアトラクションの混雑状況を把握することで、キャストの効果的な配置が可能です。さらに、取得したデータを解析して、混雑状況を公開することで顧客の流れの平準化を促して混雑の緩和、イベントやパレードを追加して客が飽きない演出をします。

 

まとめ

今後、ビッグデータの活用が技術革新のカギになるでしょう。この記事では、下記の6点についてまとめました。

 

・ビッグデータについて
・ビッグデータの特徴
・ビッグデータの活用方法
・ビッグデータの未来
・ビッグデータ活用の課題
・ビッグデータ活用例

これからの時代、あらゆる場面においてほとんどすべての行動・状況がデータ化され分析されます。その膨大なデータをどう活用するのか、ビッグデータから生み出される新たな価値が未来を切り開いていくでしょう。

この記事のすべてのタグ