Select Language

Open Dataset

GitHubバグ予測チャレンジ(マシンハッカー)

GitHubバグ予測チャレンジ(マシンハッカー)

298.85M
264 hits
0 likes
0 downloads
0 discuss
Computer Science,Programming,NLP,Classification,Deep Learning,Text Data,Transfer Learning Classification

Data Structure ? 298.85M

    Data Structure ?

    *The above analysis is the result extracted and analyzed by the system, and the specific actual data shall prevail.

    README.md

    概要 GitHub上のバグ、機能、質問を予見することは面白いことがあります。特にGitHubのイシューを含む膨大なデータセットが用意されている場合にはそうです。このハッカソンでは、MachineHackコミュニティに対して、GitHubのタイトルと本文に基づいてバグ、機能、質問を予測できるアルゴリズムを考案することを挑戦させます。テキストデータに関しては、特にデータセットが大きい場合、多くの課題があります。そのようなデータセットを分析するには、主に生テキストを表現して機械が理解できるようにするための前処理が関係するため、多くのことを考慮する必要があります。通常、生の情報を語幹化や詞形還元し、その後TF-IDFや単語埋め込みなどを使って表現します。 しかし、TransformerベースのBERTモデルなどの最先端の自然言語処理(NLP)モデルがあれば、TF-IDFやカウントベクトル化器などの手動の特徴量エンジニアリングを省略することができます。この短い期間では、様々な事前学習済みモデルを使ってNLPにおけるイメージネットのモーメント(転移学習)を活用することをおすすめします。 このハッカソンでは、機械学習の専門家全員にとって、品質の高いコードを書いて賞品を獲得するための面白い学習曲線があります。評価には、ここのEmboldコード分析プラットフォームを使ってコード品質スコアを取得することが含まれます。 すべての参加者は、ハッカソンに進む前に、必須のステップとしてEmboldのプラットフォームに無料で登録する必要があります。 ここでは、Emboldのコード分析プラットフォームを無料で使う方法の簡単なツアーを紹介します!! データセットの説明: Train.json - 150000行×3列(ターゲット変数としてラベル列を含む) Test.json - 30000行×2列 Train_extra.json - 300000行×3列(ターゲット変数としてラベル列を含む) 訓練目的のみに提供され、モデルを訓練するためにtrain.jsonに追加することができます。 Sample Submission.csv - 有効な提出物を生成する方法の詳細については、評価セクションを確認してください。 属性の説明: Title - GitHubのバグ、機能、質問のタイトル Body - GitHubのバグ、機能、質問の本文 Label - 様々なクラスのラベルを表す Bug - 0 Feature - 1 Question - 2 スキル: 自然言語処理 TF-IDF、カウントベクトル化器を使った生テキストからの特徴抽出 単語をベクトルとして表現するための単語埋め込みの使用 Transformer、BERTなどの事前学習済みモデルの使用 未知のデータに対して良好に汎化するための指標としての正解率スコアの最適化
    ×

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    The dataset is currently being organized and other channels have been prepared for you. Please use them

    Note: Some data is currently being processed and cannot be directly downloaded. We kindly ask for your understanding and support.
    No content available at the moment
    No content available at the moment
    • Share your thoughts
    Go share your ideas~~

    ALL

      Welcome to exchange and share
      Your sharing can help others better utilize data.
    Points:0 Go earn points?
    • 264
    • 0
    • 0
    • collect
    • Share