データは収集するところから始まります。市場調査やアンケートの結果のように「このようなことを知りたい」という明確な目的があって収集するデータもありますが、顧客の問い合わせフォーム、センサーや機器からのデータログといった目的のない証跡のようなデータもあります。何に使えるか分からないデータにこそ、後々他でも得られなかった重要な情報源になることも珍しくありません。そのため、企業は一度得たデータをおいそれとは捨てません。
データの収集方法としては、官公庁のWebサイトや独自にデータ分析を行っている組織のWebサイトから資料をダウンロードする方法があります。また、Eコマースサイトでは自分の出品した商品がどんな人に購入されているのかを関連付けたり、YouTubeといった動画プラットフォームではどの年齢層に観られているのかを把握することもできるでしょう。よりデータの利活用を推進するサービスでは、アプリケーションインタフェースとして自身の持っている情報を公開し、他の組織での分析に使ってもらうことも想定しています。
また、そのような情報照会用のアプリケーションインターフェースが提供されていないサービスから、データ分析する手段としてスクレイピングというものもあります。これは、Webページからテキストを抽出し、分析を行うモノです。人の代わりに、プログラムがWebページにアクセスし、必要なところのデータだけを抽出し、別ファイルとして書き出します。ソーシャルメディア上の投稿やWebサイトのレビュー情報を分析しようと考えたとき、Webページ特有のボタンやアイコンが入ってしまうため、テキストベースの分析がしにくくなります。そこで、プログラムで特定の部分だけを抽出し、一覧化します。一覧化されたデータを分析することで、Webサイトに上がっている情報であれば、データ分析することが技術的に可能になります。一つ注意点としては、スクレイピングを禁止しているサービスもあるので利用規約を確認したうえで検討しましょう。
また、Webサイトの管理者に限れば、Cookie情報もデータ収集に使われます。Cookieは、Webサイトがブラウザに保存する小さなデータです。一度、Webサイトから付与しておけばブラウザがWebサイトにアクセスするときに、Cookieを提示します。つまり、一度アクセスしたブラウザにCookieを付与すれば、その後サイトに回帰したかどうかや、どのページで離脱したのかということが分かります。これにより、どういったコンテンツがユーザーを立ち止まらせているのかを知ることができます。