Select Language

Open Dataset

第三眼データ:テレビニュースアーカイブ

第三眼データ:テレビニュースアーカイブ

214.53M
203 hits
0 likes
0 downloads
0 discuss
Arts and Entertainment,Health,News,NLP Classification

Data Structure ? 214.53M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    これは、archive.orgの[Third Eye Data: TV News Archive chyrons](https://archive.org/details/third-eye)の直接的なクローンです。 ## 紹介 テレビニュースアーカイブのサードアイプロジェクトは、テレビニュース画面の下部に表示される字幕(ナラティブテキスト)を収集し、ダウンロード可能なデータとTwitterフィードに変換して、研究、ジャーナリズム、オンラインツール、その他のプロジェクトに利用できるようにします。プロジェクト開始時(2017年9月)には、BBCニュース、CNN、フォックスニュース、MSNBCの字幕を収集しており、わずか2週間で400万件以上を収集しています。字幕には以下の理由で公共的な価値があります。 * ハリケーンや政治的なニュースなど、テレビのニュースキャスターが報道を開始する前や映像が入手できる前に、重大なニュースが字幕に表示されることがよくあります。 * テレビニュースネットワークが表示する字幕を選択することで、異なる視聴者に向けてニュースがどのようにフィルタリングされるかを理解するための編集判断が明らかになります。 * 字幕をデータとして、またTwitterでほぼリアルタイムに提供することで、テレビニュース局がどのようにニュースを報道しているかを示す警告システムとして機能します。多くの場合、字幕はTwitter上の一般的な会話よりも先に情報を提供します。 ## データソース インターネットアーカイブのテレビアーキテクトであるトレイシー・ジャキスの仕事であるサードアイプロジェクトは、テレビケーブルニュース画面の「下部」に**OCR(光学式文字認識)を適用**して、そこに表示されるテキストを収集します。字幕は、画面上の人物の発言内容を文字で提供するキャプションではなく、ニュース放送に付随するテキストナラティブです。 ### フィルタリング テレビニュース編集者によってリアルタイムで作成される字幕には、誤字が含まれることがあります。また、OCRプロセスでも、テキストが正しく認識されない要素が頻繁に追加され、文字化けしたエントリが生じることがあります。このノイズを整理するために、ジャキスは、60秒間隔で収集された各チャンネルから最も代表的な字幕を選択するアルゴリズムを適用しています。このクリーンアップされたフィードが、テレビニュース画面に表示されている字幕を投稿するTwitterボットの原動力となっています。 **このKaggleデータセットは、フィルタリングされたフィードからのデータのみを提供します。** ## データに関する注意事項 * 日付/時刻はUTC(協定世界時)です。 * 「Duration」列は秒単位で、特定の字幕が画面に表示された時間を示します。 * テレビニュースアーカイブでコンテキストを考慮したクリップを表示するには、チャンネル名で始まるフィールドの前に「https://archive.org/details/」を貼り付けます。たとえば、「FOXNEWSW_20170919_100000_FOX__Friends/start/792」は「https://archive.org/details/FOXNEWSW_20170919_100000_FOX__Friends/start/792」になります。
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 203
    • 0
    • 0
    • collect
    • Share