Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[11-18] 组会内容介绍:基于协作信息抽取工具GH_CoRE(GitHub_Collaboration_Relation_Extraction)的异质图构建与相关下游任务讨论 #309

Open
birdflyi opened this issue Nov 18, 2024 · 1 comment

Comments

@birdflyi
Copy link
Collaborator

Description

GH_CoRE简介

GH_CoRE(GitHub_Collaboration_Relation_Extraction)是一个基于GitHub日志数据抽出协作信息的工具,其中协作信息包含EventActionReference两种类型。

Feature

  • 更丰富的节点类型和边类型
    • 15种有效节点类型
    • 2种边大类,其中EventAction关联按event trigger细分,Reference关联暂未划分子类型
  • 针对Issue、PullRequest、SHA、Repo、Actor等节点在文本中的缩写识别
  • 针对PullRequest的不唯一issue_id的同一节点合并
  • 对不同项目中的实体id扩展,以确保在全域中的id唯一性
  • 针对GitHub默认项目托管服务意外的类型细分,便于研究从内部引用到外部引用的细分范围
  • 包含实体搜索(Entity Search)服务,即从GitHub事件日志查询实体属性以及GitHub事件日志记录的功能
    • 包含连接clickhouse数据库(详见OpenDigger数据,也可建立自己的数据库,见AuthConf,或建立空表以只使用GitHub API查询服务)的数据,以减少访问GitHub API的次数,降低GitHub token受限制导致查询失败的风险
    • 包含Cache功能,对于查询过的记录保存默认200个键值对,可以减少实体搜索任务量,降低查询失败风险,加速处理;
  • 存储结构(reference relation csv headline design)
    • 包含14个特征列:columns = ["src_entity_id", "src_entity_type", "tar_entity_id", "tar_entity_type", "relation_label_id", "relation_type", "relation_label_repr", "event_id", "event_trigger", "event_type", "event_time"],
      columns_extend_field = ["tar_entity_match_text", "tar_entity_match_pattern_type", "tar_entity_objnt_prop_dict"]
    • columns_extend_field仅当relation_type为Reference时才会有值,这是因为Reference是从评论等事件的文本中识别命名实体,再经过实体搜索,将返回的实体type和实体id作为target节点的"tar_entity_id", "tar_entity_type"的。
  • 可构建网络Type(值域参考Stanford Large Network Dataset Collection)
    • Event Netwok, Reference Network, and any other derived networks, Type: [Directed, Unsigned, Temporal, Attributed, Non-enbeddings]
    • 可以通过过滤PullRequestEvent的pr_merged的状态,或者根据IssueReactionEvent及含有文本事件的body的情感倾向,将网络类型由Unsigned转为Signed;可以通过反查含文本实体的文本内容,为网络节点附加向量表征,为网络类型增加额外的Embeddings以增强相应的下游任务(如情感倾向预测、链接预测)的评分.
  • 任务相近的项目

相关Issue

@birdflyi
Copy link
Collaborator Author

下游任务暂时未完全确定。
韩博似乎提到了检索增强生成,可能会有助于 #307 的融合领域知识和社区历史部分。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant