Select Language

Open Dataset

2012年総合選挙のツイート

2012年総合選挙のツイート

767.86M
739 hits
0 likes
0 downloads
0 discuss
OCR/Text Detection Classification

Data Structure ? 767.86M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    オンラインおよびソーシャルメディアは、政治対話を含む多数のテーマについての公的な議論のためのますます人気のあるフォーラムを提供しています。これらの議論のデジタル記録は、世論調査の伝統的な方法を補完し、社会全体の世論をよりよく理解する機会を提供します[ 1 ]。伝統的な方法と比較して、これらのリソースは規模の優位性を持っています。世界中に数十億人のアクティブな参加者がいるため、オンラインおよびソーシャルメディアは、多くの人口が明らかにする行動や陳述された考えを捉える可能性があります。これらの情報源はまた、低遅延の利点も持っています。リアルタイムのオンラインおよびソーシャルメディアデータにより、イベントが発生したときに連続的な分析が可能になり、時間粒度の事後分析は、重要なサブイベントの影響を分離するために不可欠です。

    近年、多くの研究は、オンライン上の政治的意見の表現を理解し、選挙の予測、支持の特定などの関連タスクのために、調査や基本的な選挙データの代替データ収集方法としてそれを活用することを探索することに焦点を当てています。結果はまちまちです。例えば、多くの文献がソーシャルメディアの指標と政治的結果[ 234 ]の間の正の相関関係を報告している一方で、他の人はその方法を批判し、矛盾する否定的な結果を報告しています[ 567 ]。この研究に潜在的な問題がある主な原因は2つあります。まず、これはしばしば、標準的なデータと方法がすでに非常に正確な選挙結果に焦点を当てています。其次、これは、技術とそのユーザーの発展に伴ってデータが持つ独特な非定常性を説明せず、したがって、データが支持、投票の可能性、寄付などの結果とどのように関連しているかを説明することもできません。学術研究の明確に定義された道筋は、標準的な客観的結果変数を改善することであり、この新しいデータがこれらの指標を改善できると合理的に仮定することができます。しかし、これらの矛盾する結果を考慮すると、この新しいデータにより適した新しい技術と新しい結果変数を探索する価値があります。

    この論文では、オンラインおよびソーシャルメディアデータに基づいて選挙結果を予測するなどの伝統的なタスクを再現しようとする代わりに、一歩引き、このデータが伝統的な調査データとどのように異なるかを問います:

    もしオンラインおよびソーシャルメディアデータがある仮想的な疑似調査方法の出力であると仮定したらその方法は伝統的な調査技術とどのように異なるでしょうか?

    私たちは、この問題に対する厳密な回答(オンラインおよびソーシャルメディアデータと金本位制の調査方法の根本的な違いを強調する)が、このようなデータの使用に新しいロードマップを提供できると考えています。初期の論文が調査データのようにデータを扱うことに焦点を当てていたのに対し、この論文はその仮定の限界を定義します。そのために、私たちは、私たちの知る限り、この目的に使用される最大のコーパスを分析します:2012年の選挙サイクル中の、多数のネットユーザーの包括的な検索活動と一連のツイートです。私たちは分析を(疑似)調査方法の2つの基本的な特徴に焦点を当てます:(1)人口動態と疑似調査への参加。(2)疑似調査で議論されるテーマの動態。

    伝統的な調査方法と比較して、参加とテーマのカバレッジがどれほど動的で予測が難しいかを示すことで、私たちの結果はこれまでの研究を上回っています。オンラインおよびソーシャルメディアプラットフォームの参加者がオフラインの人々を代表していない(性別や地理位置などの主要な人口統計学的特徴で)ことを証明するだけでなく、私たちの研究は、参加者の参加が毎日(さらには毎時)大きく変化することも示しています。特に重要なイベントの周辺では。言い換えると、オンラインおよびソーシャルメディアデータのリアルタイム性が最もタイムリーな洞察を提供できる時代に、参加者基盤の構成変化が最も顕著になります。

    結果として、私たちは、オンラインおよびソーシャルメディア活動が「参加希望」パネルのように機能し、異なるユーザーが異なる時間に異なる程度で相互作用することを発見しました。既存のほとんどの研究は、各参加活動を独立して計算し、ユーザーの身元情報を無視しています。もしこれが調査であれば、ユーザーが必要に応じて何度でも回答することを許可することに相当します。私たちは、オンラインの人々を横断面ではなくグループとして見る価値を探ります。なぜなら、少数のユーザー(ただし多数)が同じテーマを繰り返し議論し、会話を主導するからです。

    仮想的な調査の参加者のテーマを研究することで、私たちは、検索とツイートをする人々が異なる時間に異なるタイプの情報を提供することを発見しました。具体的には、活動がコンテンツ共有から活動へのコメントに移行するにつれて、彼らが議論するテーマは重大なイベントの中で移行します。もしこれが調査であれば、ユーザーが異なる時間にシステム上の異なる質問に回答することに相当します。

    要するに、オンラインおよびソーシャルメディアデータを調査と見なす場合は、それらを確かに不完全な調査と見なさなければなりません。伝統的な調査は厳格な手順に従い、同じ質問をする - 1930年代後半以来、ギャラップはその回答者に同じ大統領支持率の質問をしている - 代表的な人口の無作為抽出サンプルに対して繰り返し分析を行います。しかし、検索とソーシャル「調査」は、実質的には、自発的に参加する人が自分たちが選んだ質問に選択的に回答する様々な非無作為サンプルに対して民意調査を行っています。

    伝統的な調査は非常に厳格ですが、依然として4つのよく知られた誤差が存在します:サンプリング誤差、カバレッジ誤差、無回答誤差、および調査設計/実施誤差;この状況でオンラインおよびソーシャルメディアを考慮することで、その潜在的な価値をよりよく理解することができます。これは全体として調査総誤差と呼ばれ、文献で深く定義されています[ 89 ]。サンプリング誤差は人口の一部のみをサンプリングする結果であり、カバレッジ誤差は全人口をカバーできない結果であり、無回答誤差は人口の一部が調査票に回答しないことであり、調査誤差は調査の設計/実施に起因するすべての誤差です。オンラインおよびソーシャルメディアデータのサンプルサイズは非常に大きく、インターネットにアクセスできない一般人口の大多数を欠いていますが、そのカバレッジはほとんどの人口に対しても強力です。伝統的な調査の回答率は10%未満で、選挙調査の回答率は低下しています[ 10 ]が、オンラインおよびソーシャルメディアデータの同等の回答率ははるかに低く、どの日でも、オンラインユーザーのごく一部のみが任意のテーマについて議論することを選択します。さらに、研究者がデータを解釈する際に質問、順序付けなどをコントロールできないため、調査誤差の状況ははるかに深刻です。したがって、伝統的な調査の総調査誤差の真の推定値を考慮しても、彼らが調査で提起する質問に関する誤差は小さい可能性があります。

    研究者は、調査を行うことを妨げる誤差の優位性またはコストの優位性を持つ結果を得るために、オンラインおよびソーシャルメディアデータの使用に焦点を当てるべきです。これには3つの理由があります。

    まず、検索およびソーシャルメディアデータは、異なるオンライン人群間の興味と関与度についての洞察を提供できます。重要なのは、誰が応答しているのか、いつ応答しているのか、および表現されているテーマと意見を尋ねることです。これは個人にも同様に当てはまり、興味や支持のためにマイクロターゲティングが行われる可能性があります。調査の用語で言えば、これは、この問題について、オンラインおよびソーシャルメディアデータの調査誤差が低いことを意味します。なぜなら、私たちは、オンラインおよびソーシャルメディアユーザーがあるテーマについて議論するときに回答している質問の1つが、彼らがそのテーマに興味があるかどうかであることを知っているからです。さらに、研究者は、非代表的な調査のベストプラクティスを使用して、データを固定または代表的な目標人群に再加重することができ

    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 739
    • 0
    • 0
    • collect
    • Share