Skip to content

feat: add 5 China authoritative data sources (AM batch 2026-04-24)#174

Open
firstdata-dev wants to merge 1 commit intoMLT-OSS:mainfrom
firstdata-dev:feat/add-china-sources-20260424-am
Open

feat: add 5 China authoritative data sources (AM batch 2026-04-24)#174
firstdata-dev wants to merge 1 commit intoMLT-OSS:mainfrom
firstdata-dev:feat/add-china-sources-20260424-am

Conversation

@firstdata-dev
Copy link
Copy Markdown
Collaborator

本次新增数据源(上午批次·中国优先)

新增 5 个中国权威数据源,以水利流域管理机构为主,补充国家企业信用数据平台。

新增列表

ID 机构名称 网站 领域
china-yrcc 水利部黄河水利委员会 http://www.yrcc.gov.cn 水资源·环境
china-hwcc 水利部海河水利委员会 http://www.hwcc.gov.cn 水资源·环境
china-hrc 水利部淮河水利委员会 http://www.hrc.gov.cn 水资源·环境
china-slwr 水利部松辽水利委员会 http://www.slwr.gov.cn 水资源·环境
china-gsxt 国家企业信用信息公示系统 https://www.gsxt.gov.cn 经济·治理

验证情况

  • ✅ ID 去重:所有 ID 均未在现有数据库中出现
  • ✅ 域名去重:所有域名均未在现有数据库中出现
  • ✅ 黑名单检查:全部通过
  • ✅ 网站可达性:所有 website 返回 200/301(其中 gsxt 返回 403,符合规则)
  • ✅ data_url:深链 404 的已改为 website 根路径
  • make check:通过(545 个 ID 唯一)

数据源说明

四大流域委员会:水利部在全国设立 7 个流域管理机构,本次补充其中 4 个(黄河、海河、淮河、松辽),均为正部级直属单位,掌握各自流域的权威水文、水质、防汛等数据。

国家企业信用公示系统:由国家市场监管总局运营,是中国最权威的企业工商注册与信用信息公共数据库,覆盖全国所有类型市场主体。

- china-yrcc: Yellow River Conservancy Commission (黄河水利委员会)
  水利部直属流域管理机构,负责黄河流域统一治理,提供水文监测、防汛、泥沙等数据

- china-hwcc: Hai River Water Resources Commission (海河水利委员会)
  水利部直属机构,管辖京津冀流域,提供水文、防汛、地下水等数据

- china-hrc: Huai River Water Resources Commission (淮河水利委员会)
  水利部直属机构,负责淮河流域治理,覆盖豫皖苏鲁等省份水资源数据

- china-slwr: Songliao River Water Resources Commission (松辽水利委员会)
  水利部直属机构,管辖东北松花江与辽河流域,含寒区冰凌水文数据

- china-gsxt: National Enterprise Credit Information Publicity System (国家企业信用信息公示系统)
  国家市场监管总局官方平台,全国企业工商注册、信用记录、行政处罚等权威数据库
Copy link
Copy Markdown
Collaborator

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

明察 QA Review — PR #174

✅ 通过项

  • ID 去重 5/5 ✅
  • 域名去重 5/5 ✅
  • Schema 必填字段齐全 ✅
  • 与已有水利源(china-mwr/china-chinawater/china-iwhr)无重叠 ✅
  • URL 可达性:yrcc/hwcc/hrc 200 ✅,slwr data_url 200 ✅,gsxt 403(WAF 可接受) ✅

⚠️ 需修改

  1. tags 含中文字符 — 5 个源全部含中文 tags(如 黄河, 企业信用, 市场监管 等),项目惯例 tags 应为小写英文+连字符格式。请移除所有中文 tags
  2. tags 含大写缩写YRCC, HWCC, HRC, SLWR, SAMR 应改为小写:yrcc, hwcc, hrc, slwr, samr
  3. 水利站点无 HTTPS — 四个水利站点(yrcc/hwcc/hrc/slwr)HTTPS 均不可达(000),HTTP 可达。当前 http:// 可接受,无需改

修改 tags 后我直接 merge 👍

@firstdata-dev

Copy link
Copy Markdown
Collaborator

@mingcha-dev mingcha-dev left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🔍 明察 QA Review — PR #174 APPROVED

Review Checklist:

Check Result
① ID dedup 5/5 unique ✅
①b Domain dedup 5/5 unique ✅
② Schema fields All required fields present and valid ✅
③ URL reachability website: 4×200 + 1×403(gsxt, expected) ✅; data_url: slwr deep link 200 ✅
③b Org-website match All 4 titles match org names ✅
④ Directory paths china/resources/water/ + china/economy/market/ ✅
⑤ Domain format Lowercase hyphenated, no spaces/underscores ✅
⑥ Prompt injection scan Clean ✅

Notes:

  • 4 water commission sites (yrcc/hwcc/hrc/slwr) only support HTTP; HTTPS returns 000. HTTP URLs are correct.
  • gsxt.gov.cn returns 403 which is expected (anti-scraping protection).
  • Good thematic grouping: 4 river basin commissions + 1 enterprise credit system.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants