2025'te Veri Doğrulama Ekosistemi

(aeturrell.com)

5 puan yazan GN⁺ 2025-03-13 | Henüz yorum yok. | WhatsApp'ta paylaş

Mevcut durumda (2025) başlıca veri doğrulama araçlarının açıklaması ve duruma göre öneriler
Veri doğrulama (geçerlilik kontrolü), veri kalitesinin otomatik veya yarı otomatik olarak kontrol edilmesi sürecidir
- Veri türü kontrolü, eksik değer sayısının kontrolü, anormal değerlerin tespiti
Yalnızca veri çerçevelerindeki satırlar değil, API giriş değerleri veya form gönderim değerleri de doğrulanabilir
Kullanıcılar, belirli bir sütundaki değerlerin belli bir aralıkta olması gibi kurallar tanımlayabilir
Doğrulama başarısız olduğunda: hata üretilebilir, doğrulama raporu oluşturulduktan sonra manuel veya otomatik işlem yapılabilir

Veri doğrulama neden önemlidir

Kamu kurumlarındaki analiz çalışmaları ikiye ayrılır:
- Ad hoc analiz – tek seferlik analiz çalışmaları
- Düzenli istatistik üretimi – düzenli olarak yeni veri toplama ve işleme
Veri hataları analiz sonuçlarını etkilemeden önce doğrulama gerekir
Veri doğrulama, hata riskini azaltmada ve doğruluğu artırmada etkilidir

Başlıca veri doğrulama araçları

1. Great Expectations

Üretim seviyesinde güçlü bir veri doğrulama aracı
Açık kaynak paketi vardır; ayrıca ücretli bulut hizmeti de sunar
Gelişmiş özellikler sunar:
- Doğrulama başarısız olduğunda Slack mesajı gönderimi gibi otomasyonlar mümkündür
Kurulumu karmaşıktır ve çoğu zaman veri bilimi becerileri gerektirir

Örnek kod:

import great_expectations as gx  
import pandas as pd  

context = gx.get_context()  
df = pd.read_csv("https://raw.githubusercontent.com/great-expectations/gx_tutorials/…;)  

data_source = context.data_sources.add_pandas("pandas")  
data_asset = data_source.add_dataframe_asset(name="pd dataframe asset")  
batch_definition = data_asset.add_batch_definition_whole_dataframe("batch definition")  
batch = batch_definition.get_batch(batch_parameters={"dataframe": df})  

# Değerin 1 ile 6 arasında olup olmadığını doğrula  
expectation = gx.expectations.ExpectColumnValuesToBeBetween(column="passenger_count", min_value=1, max_value=6)  
validation_result = batch.validate(expectation)

Doğrulama başarısız olduğunda Slack bildirimi ayarlama örneği:

from gx.actions import SlackNotificationAction, UpdateDataDocsAction  

action_list = [  
    SlackNotificationAction(  
        name="send_slack_notification_on_failed_expectations",  
        slack_token="${validation_notification_slack_webhook}",  
        slack_channel="${validation_notification_slack_channel}",  
        notify_on="failure",  
        show_failed_expectations=True,  
    ),  
    UpdateDataDocsAction(name="update_all_data_docs"),  
]

2. Pointblank

2024'te yayımlanan yeni bir Python veri doğrulama aracı (RStudio → Posit tarafından geliştirildi)
Great Expectations'tan etkilenmiştir ve sezgisel bir söz dizimi sunar
Polars, Pandas, DuckDB gibi çeşitli veri kaynaklarını destekler

Örnek kod:

import pointblank as pb  

validation = (  
    pb.Validate(data=pb.load_dataset(dataset="small_table"))  
    .col_vals_gt(columns="d", value=100)  
    .col_vals_le(columns="c", value=5)  
    .col_exists(columns=["date", "date_time"])  
    .interrogate()  
)

Sonraki işlem otomasyonu özellikleri yetersizdir → sonraki işlemler manuel olarak yapılmalıdır

3. Pandera

Great Expectations'a benzer bir API sunar
İstatistiksel hipotez testi özelliğini destekler
Polars, Geopandas, Pyspark gibi çeşitli veri kaynaklarını destekler

Örnek kod:

import pandas as pd  
import pandera as pa  

df = pd.DataFrame({  
    "column1": [1, 4, 0, 10, 9],  
    "column2": [-1.3, -1.4, -2.9, -10.1, -20.4],  
    "column3": ["value_1", "value_2", "value_3", "value_2", "value_1"],  
})  

schema = pa.DataFrameSchema({  
    "column1": pa.Column(int, checks=pa.Check.le(10)),  
    "column2": pa.Column(float, checks=pa.Check.lt(-1.2)),  
    "column3": pa.Column(str, checks=[  
        pa.Check.str_startswith("value_"),  
        pa.Check(lambda s: s.str.split("_", expand=True).shape[1] == 2)  
    ]),  
})  

validated_df = schema(df)

İstatistiksel hipotez testi örneği:

from scipy import stats  

schema = pa.DataFrameSchema({  
    "height_in_feet": pa.Column(float, [  
        pa.Hypothesis.two_sample_ttest(  
            sample1="M",  
            sample2="F",  
            groupby="sex",  
            relationship="greater_than",  
            alpha=0.05,  
            equal_var=True  
        )  
    ]),  
    "sex": pa.Column(str)  
})  

schema.validate(df)

4. Pydantic

Veri çerçevesi değil, sözlük tabanlı bir doğrulama aracı
JSON ve yapılandırılmamış veri doğrulaması için uygundur
FastAPI gibi API framework'leriyle entegre olabilir

Örnek kod:

from pydantic import BaseModel, PositiveInt  
from datetime import datetime  

class User(BaseModel):  
    id: int  
    name: str = 'John Doe'  
    signup_ts: datetime | None  
    tastes: dict[str, PositiveInt]  

external_data = {  
    'id': 123,  
    'signup_ts': '2019-06-01 12:22',  
    'tastes': {'wine': 9, 'cheese': 7, 'cabbage': '1'}  
}  

user = User(**external_data)

5. Cerberus

Sözlük tabanlı doğrulama aracı
Basit kural tabanlı yapılandırma
True/False değeri döndürür → hata fırlatmaz

Örnek kod:

from cerberus import Validator  

schema = {'name': {'type': 'string'}}  
v = Validator(schema)  
document = {'name': 'john doe'}  
v.validate(document)  
# True

6. jsonschema

JSON veri doğrulama aracı
Şema tabanlı tanım

Örnek kod:

from jsonschema import validate  

schema = {  
    "type": "object",  
    "properties": {  
        "price": {"type": "number"},  
        "name": {"type": "string"}  
    }  
}  

validate(instance={"name": "Eggs", "price": 34.99}, schema=schema)

Kamu sektöründe hangi araç kullanılmalı

Veri çerçevesi veya veritabanı doğrulaması:
- Üretim sisteminde kullanım → Great Expectations önerilir
- Basit doğrulama → Pandera önerilir
- Yeni bir araç denemek → Pointblank önerilir
API veya kullanıcı girdisi doğrulaması:
- Yapılandırılmamış veri → Pydantic önerilir
Basit JSON doğrulaması:
- jsonschema önerilir
Basit bir doğrulama gerekiyorsa:
- Cerberus önerilir

2025'te Veri Doğrulama Ekosistemi

Veri doğrulama neden önemlidir

Başlıca veri doğrulama araçları

1. Great Expectations

2. Pointblank

3. Pandera

4. Pydantic

5. Cerberus

6. jsonschema

Kamu sektöründe hangi araç kullanılmalı

İlgili okumalar

Henüz yorum yok.